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内 容 提 要 
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4 车 [ 美 ] 莱恩 .坎贝尔 夏 丽 蒂 . 梅 杰 斯 
译 张 海 深 夏 梦 珊 ” 林 建 桂 
责任 编辑 岳 新 欣 
责任 印 制 ” 周 界 亮 
9 人 民 邮 电 出 版 社 出 版 发 行 ”北京 市 丰台 区 成 寿 寺 路 11 号 
邮编 “100164 电子 邮件 ”315@ptpress.com.cn 
网 址 ”https:/www.ptpress.com.cn 




















北京 印刷 
多 开本 : 800x1000 1/16 
印张 : 13.25 
字数 : 289 千 字 2020 年 11 月 第 1 版 
印 数 : 1 一 2 500 册 2020 年 11 月 北京 第 1 次 印刷 





著作 权 合 同 登 记号 ”图 字 : 01-2020-3746 号 


定价 : 89.00 元 
读者 服务 热线 : (010)51095183 转 600” 印 装 质 量 热 线 : (010)81055316 
反 盗 版 热线 : (010)81055315 
广告 经 营 许可 证 : 京东 市 监 广 登 字 20170147 号 


版 权 声 明 


© 2018 by Laine Campbell and Charity Majors. 


Simplified Chinese edition, jointly published by O’Reilly Media, Inc. and Posts & Telecom Press, 
2020. Authorized translation of the English edition, 2020 O’Reilly Media, Inc., the owner of all 
rights to publish and sell the same. 


All rights reserved including the rights of reproduction in whole or in part in any form. 


英文 原版 由 OReilly Media, Inc. 出 版 ，2018。 








简体 中 文 版 由 人 民 邮 电 出 版 社 出 版 ，2020。 英 文 原版 的 翻译 得 到 O’Reilly Media, Inc. 的 授权 。 
此 简体 中 文 版 的 出 版 和 销售 得 到 出 版 权 和 销售 权 的 所 有 者 一 一 O’Reilly Media, Inc. 的 许可 。 














版 权 所 有 ， 未 得 书面 许可 ， 本 书 的 任何 部 分 和 全 部 不 得 以 任何 形式 重 制 。 











O'Reilly Media, Inc. 介 绍 











O’Reilly 以 “分 享 创 新 知识 、 改 变 世 界 ” 为 己任 。40 多 年 来 我 们 一 直 向 企业 、 个 人 提供 成 
功 所 必需 之 技能 及 思想 ， 激 励 他 们 创新 并 做 得 更 好 。 


O’Reilly 业务 的 核心 是 独特 的 专家 及 创新 者 网 络 ， 众 多 专家 及 创新 者 通过 我 们 分 享 知识 。 
们 的 在 线 学 习 (Online Learning) 平台 提供 独家 的 直播 培训 、 图 书 及 视频 ， 使 客户 更 容易 获 
取 业 务 成 功 所 需 的 专业 知识 。 几 十 年 来 O'Reilly 图 书 一 直 被 视 为 学 习 开创 未 来 之 技术 的 权 
威 资料 。 我 们 每 年 举办 的 诸多 会 议 是 活跃 的 技术 聚会 场所 ， 来 自 各 领域 的 专业 人 士 在 此 建 
立 联 系 ， 讨 论 最 佳 实践 并 发 现 可 能 影响 技术 行业 未 来 的 新 趋势 。 


我 们 的 客户 渴望 做 出 推动 世界 前 进 的 创新 之 举 ， 我 们 希望 能 助 他 们 一 禹 之 力 。 
































业界 评论 
“O’Reilly Radar 博客 有 口 富 碑 。” 
Wired 





“O’Reilly 凭借 一 系列 非凡 想法 〔( 真 希望 当初 我 也 想到 了 ) 建立 了 数 百 万 美元 的 业务 。” 


-Business 2.0 





“O’"Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 


“一 本 O"Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
Jrish Times 





“Tim 是 位 特 立 独 行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 领域 ， 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 :“ 如 果 你 在 路 上 过 到 岔路 口 ， 那 就 走 小 路 。 ”回顾 过 去 ，Tim 
似乎 每 一 次 都 选择 了 小 路 ,而且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 不 错 。” 


-Linux Journal 





序 和 Xil 
前 言 和 0 xiii 
第 1 章 数据 库 可 靠 性 工程 介绍 1 
1.1 数据 库 可 靠 性 工程 师 的 指导 原则 ee 2 
1.1.1 保护 数据 es】 2 

六 大 量 自 助 服务 CT 3 

1.1.3 ”消除 开 事 3 

1.1.4 数据 库 并 不 特殊 4 

1.1.$ 消除 软件 和 和 运 维 之 间 的 障 本 和 4 

12 ; 写 稚 税 必 要 于 Sw 放 
1.3 需求 层次 和 6 
1.3.1 生存 和 安全 6 

[放大 芝 有 疝 基 大 7 

ee 尊重 和 gy 

1.3.4 自我 实现 8 

1 .4 ”四 缚 0 9 

第 2 章 服务 等 级 管理 生 10 
2.1 ”为何 需要 SLO ee 10 
39 服务 等级 指标 oi ei ein ei 12 
2 2 ei 12 

2222 可 用 性 Seep 12 

pe 12 


2.2.4 ”持久 性 ee 
2.2.5 成 本 或 效率 






































2.3 定义 服务 目标 13 
2.3.1 延 时 指标 13 
3 可 用 性 指 业 下 于 OO 16 
2.3.3” 知 吐 量 指标 18 
2.4 ”SLO 的 监控 和 报告 19 
2.4.1 可 用 性 监控 和 20 
2.4.2 ” 延 时 监控 和 21 
pe 22 
2.4.4 监控 成 本 和 效率 和 22 
2.5 小结 23 
第 3 章 风险 管理 24 
3.1 风险 考量 因 尼 pp 25 
3.1.1 未 知 因素 和 复杂 性 25 
3.1.2 可 用 资源 和 25 
3.1.3 人 的 因素 25 
3.1.4 ”团队 因素 26 
3.2 ”可 以 做 什么 
3.3 不 可 以 做 什么 
3.4 ”工作 流程 :初始 版 本 
3.4.1 
3.4.2 
3.4.3 
3.44 ”风险 控 制 和 决策 制定 meni 34 
3.5 ”持续 选 代 ee 36 
3.6 《小 缚 和 好 
第 4 章 和 运 维 可 见 性 和 38 
.1 . 返 维 可 山 性 的 新 关 则 ce ii 
4.1.1 把 运 维 可 见 性 视 为 商业 智能 系统 
4.1.2 分 布 式 易 失 环境 成 为 趋势 
4.1.3 高 频 存 储 关键 度量 值 和 42 
4.1.4 保持 架构 简 滞 43 
东 坟 ”这 维 避 而 性 框 顷 站 和 nn 全 na 刘 0 全 0 交 00050 全 0 44 
4.3 数据 得 入 和 45 
4.3.1 和 膛 测 /度量 值 和 46 





Vi 


目录 


432， 演 人 仙人 的 乓 全 的 全 的 生生 生机 生机 八 全 二 生计 训 47 





























下 47 
4.4 数据 和 输 册 0 
4.5 监控 的 初始 版 本 

本 49 
4.5.2 月 
4.5.3 
4.6 详 生 应 用 程序 …- 
4.6.1 分 布 式 记 踪 ee 52 
4.62 束 件 与 间 是 和 53 
4.7 度量 服务 器 或 实例 53 
48， 府 是 数 据 在 入 语 sois Dn iiiii 55 
术 9， 疲 据 帮 化 巡 搂 层 s 坟 erie 56 
4.9.1 利用 兴 eee 56 
0D NO 56 
ee TT 57 
4.10 ”数据库 内 部 可 见 性 站 58 
4.10.1 吞吐 量 和 延 时 度量 值 ee 58 
4.10.2 ”提交 、 重 做 和 目 志 en 58 
4.10.3 
4.10.4 ” ”内存 人 i 60 
4.10.5” 锁 与 并 发 人 nn 60 
4.11 数据库 对 象 … 人 nn 62 
1 62 
4.13， 阁 据 库 艺 富 和 囊 什 sos 捕 全 计生 全 二 二 的 二 和 62 
区 63 

第 了 齐 考 础 让 施 焉 程 和 ee 64 

5.1 主机 
5.1.1 物理 服务 器 
5.1.2 系统 或 内 核 的 运 维 ee 65 
5.1.3 ”存储 区 域 网 络 ee 72 
5$.1.4 ”物理 服务 器 的 优点 73 
5.1.5 ”物理 服务 器 的 缺点 73 

$2 庶 氢 化 73 
5.2.1 虚拟 机 管理 程序 74 
SD ER ee 74 








.3 




















5.4 
5.4.1] Daas 面临 的 挑战 站 76 
5.4.2 ”数据 库 可 靠 性 工程 师 与 DagS ee 76 
5.5 小结 和 37 
第 6 章 基础 设施 管理 a 78 
6 拔 未 欣 和 有 79 
6.2 配置 定 允 9 
63 时 于 配 轩 的 构建 全 ne 81 
6.4 维护 配置 和 82 
65” 莽 础 设施 定义 和 编剧 语 和 ea ii ne 83 
6.5.1 单一 基础 设施 定义 ee 83 
6.5.2 ”垂直 匆 分 nn 84 
653- 务 基 起 求 再 症 义 有 0 和。 85 
56 长 履 剖 斌 短信 规 性 86 
6.7 服务 目录 和 86 
68， 完 成 拼图 于 6Do re 87 
6.9 ”开发 环境 88 
证 10， 不 结 88 
第 7 章 备份 和 恢复 89 
7.1 核心 概念 和 90 
7.1.1 物理 备份 与 逻辑 备份 90 
7.1.2” 脱 机 备份 与 联机 备份 
7.1.3 ”全 量 备份 、 增 量 备份 和 差 量 备份 
7.2 恢复 的 考量 eee 
7.3 ”恢复 场 蚊 nn 
73.1 .计划 汉 的 恢 发 所 师 ne 
7.3.2 ”计划 外 的 恢复 场景 .ee 
7.3.3 场景 的 范 国 
7.3.4 不 同 场景 的 影响 ee 的 05 
7.4 恢复 策略 分 解 站 0 96 
7.4.1 策略 第 上 步 ， 检测 96 
7.4.2 策略 第 2 步 : 分 层 存储 98 
7.4.3 策略 第 3 步 : 多 样 的 工具 集 eeennnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnen 98 
vii | 目录 





类 5 


7.6 
第 8 章 
8.1 


8.2 
83 


8.4 


8.5 
第 9 章 
9.1 


9.2 


7.4.4 策略 第 4 步 : 测试 





既定 恢复 策略 

7.5.1 在 线 快 速 存 储 的 全 量 备份 和 增 量 备份 OO 100 
7.5.2 在 线 慢 速 存 储 的 全 量 备份 和 增 量 备份 101 
7.5.3 离线 存储 和 102 
7.5.4 对 象 存储 103 
小 结 站 103 
发 布 管理 和 104 
生 j 让 第 全 和 104 
8.1.1 收集 并 分 享 相关 资讯 ee 105 
8.1.2 ”促进 对 话 交 re 105 











031 “省 沪 友好 的 开发 这 并 全 Woe 111 
8.3.2 ”变更 签 入 后 的 测试 112 
8.3.3 完整 的 数据 集 测试 和 112 
8.3.4 下 游 测试 ee 113 
8.3.5 操作 测试 和 114 
部 署 ene se 八 人 nn nnnnnnnnnnnnntnnennnnnnnnnnnntnntnnnnenonnnnnnnenooneooooonntnn 114 
8.4.1 迁移 和 版 本 和 114 
8.42 影响 耸 析 和 115 
8.4.3 变更 模式 ET 前 机 115 
8.4.4 手动 或 自动 化 Ep TE ET PE ET ET ET TT TE ET PE 118 
小 结 118 
安全 119 
安全 的 目标 站 119 
9.1.1 防止 数据 被 窍 oooooooooooeooosoooooooooooooooooooooosoooooooooooooooooooooooooooooooooooeoooosooooooooooooooooooeoeoooeoooos 119 
9.1.2 防止 故意 破坏 120 
9.1.3 ”防止 意外 损 丘 ns 作 nn 和 人 们 八 nennennannenannan 120 
9.1.4 防止 数据 泄露 
9.1.5 合 规 与 审计 标准 和 120 
数据 库 安 全 即 功能 和 ee 121 
9.2.1 培训 与 合作 和 121 
9.2.2 自助 服务 ee 122 








9.2.3 ”集成 和 测试 
9.2.4 和 运 维 可 见 性 













93， 汤 油 和 沁 润 利用 ovine 
9.3.1 STRIDE we 125 
9 .3.2 DREAD 125 
9.3.3 基本 预防 措施 eve 126 
9.3.4 ”DoS 玻 击 eeeeeeeeeseseeeeesesse see ee ee none estneseeeee so soonooooosoeoeoss 127 
9.3.5 SQL 注入 129 
9.3.6 ”网 络 和 身份 验证 协议 和 131 
9.4 ”数据 加 秆 i 131 
9.4.1 财务 数据 和 132 
9.4.2 个 人 健康 数据 PO 132 
9.4.3 个 人 隐私 数据 132 
9.4.4 ”军事 数据 或 政府 数据 
9.4.5 机密 或 敏感 的 业务 数据 
9.4.6 ”传输 中 的 数据 i 
9.4.7 ”数据库 中 的 数据 ee 
9.4.8 ”文件 系统 中 的 数据 
9.5 小 缚 139 
第 10 章 数据 存储 、 索 引 和 复制 Ne 141 
101 数 握 前 看 伪 结 襟 是 141 
10.1.1 数据 库 行 的 存储 和 
10.1.2 SSTable 和 LSM 树 站 ee 
10.1.3 。 索 避 
10.1.4 日 志和 数据 靡 pe 147 
10.2 ”数据 复制 es 148 
10.2.1 单 leader 复制 和 148 
10.2.2 多 leader 复制 语 ee 158 
10.3 一 小结 163 
第 11 章 ”数据 存储 领域 指南 …………… 164 
11.1 数据 存储 的 概念 属性 nn 164 
11.1.1 数据 模型 165 
NN 167 
11.1.3 BASE ee 171 
11.2 数据 存储 的 内 部 属性 站 ee 172 
11.2.1 存储 和 172 





x | 目录 


11.2.2 无 处 不 在 的 CAP 理论 










11.2.3 一致 性 与 延 时 的 权衡 ee 
11.2.4 ”可 用 性 ee 
11.3 小 结 CTT EET RT EE OT PE TT EO 
第 12 章 数据 架构 示例 OO 177 
1 儿 移 组 种 noite i 1 
12.1.1 前 端 数 据 库 en 
12.1.2 数据 访问 层 …… 
12.1.3 数据 库 代 理 本 于 
12.1.4 ”事件 与 消息 系统 180 
12.1.5 缓存 和 内 存 存储 182 
12.2 数据 架构 184 
12.2.1 Lambda 和 及 appa 184 
12.2.2， 尝 件 洲 潜 nt 186 
12.2.3 CQRS 186 
12.3 小 结 OT Ee 187 
第 13 章 数据 库 可 靠 性 工程 师 行为 指南 有 188 
13.1 数据库 可 靠 性 工程 文化 和 188 
13.1.1 突破 障碍 189 
13.1.2 数据 驱动 决策 192 
13.1.3 数据 完整 性 和 可 恢复 性 EE PEC OT EP 193 
Ee Wp 小 结 OT EO TPE ET ET ET 193 
关于 作者 a 天 相间 生 和 拉 三 让 玉生 天 194 
封面 介绍 a 194 








目录 | xi 





总 的 来 说， 数据 库 行 业 正 经 历 前 所 未 有 的 变革 和 颠覆 。 技 术 的 快速 迭代 迫使 我 们 不 断 思 
芳 ， 这 既是 挑战 ， 也 是 机 遇 。 


数据 库 架 构 飞 速 发 展 ， 以 至 于 日 常 执行 的 任务 变 得 没 那 么 重要 了 ， 且 我 们 投入 大 量 精 力学 
习 的 相关 技能 很 快 就 落伍 了 。 在 安全 、 基 础 设施 即 代码 以 及 云 技术 〈 基 础 设施 即 服务 和 数 
据 库 即 服务 等 ) 方面 涌现 的 创新 和 压力 ， 让 我 们 (也 要 求 我 们 ) 重新 思考 如 何 构建 数据 库 
系统 。 


相应 地 ， 我 们 已 经 从 传统 的 管理 工作 转向 了 强调 架构 、 自 动 化 、 软 件 工程 、 持 续集 成 、 持 
续 交 付 以 及 系统 测试 的 工作 。 与 此 同时 ， 我 们 一 直 保 护 和 关心 的 数据 ， 其 价值 和 重要 性 已 
经 上 升 了 一 个 数量 级 〈 甚 至 更 多 )， 且 未 来 会 继续 提升 。 身 处 这 个 时 代 ， 我 们 有 幸 能 为 世 
界 做 出 有 意义 的 重要 改变 。 


毫 无 疑问 ,许多 人 曾 自视 优秀 的 数据 库 管 理 员 ， 现 在 却 面临 不 堪 重 负 或 落伍 的 风险 。 与 此 
同时 ， 进 入 该 领域 的 新 人 渴望 了 解 组 织 范式 。 这 两 个 问题 的 答案 是 相同 的 : 享受 学 习 的 乐 
趣 ， 提 升 自我 ， 保 持 乐观 、 热 情 和 自信 ， 尽 管 存在 不 可 避免 的 痛 昔 和 陷阱 ， 但 这 些 都 是 完 
成 任务 所 必须 经 历 的 。 这 本 书 是 一 项 非 几 的 成 就 ， 它 介绍 了 一 种 思考 数据 库 架 构 工程 和 操 
作 的 新 方式 ， 这 是 一 本 指南 ， 涵 盖 了 我 们 过 去 所 做 的 一 切 ， 并 把 它 重 塑 为 一 种 新 思维 : 数 
据 库 可 靠 性 工程 。 
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本 书 将 介绍 数据 库 专 业 人 员 未 来 的 发 展 方向 : 数据 库 可 靠 性 工程 师 ， 并 讨论 人 们 对 数据 库 
管理 员工 作 内 容 的 先入 之 见 。 任 何 与 数据 库 管理 员 交 互 过 的 软件 工程 师 或 系统 工程 师 都 可 
能 有 很 多 这 样 的 先入 之 见 。 


传统 上 ， 数 据 库 管理 员 充 分 理解 数据 库 的 内 部 结构 。 他 们 每 日 与 程序 优化 和 查询 引擎 打 交 
道 ， 并 以 设计 和 调整 高 性 能 、 专 业 化 的 系统 为 业 。 当 需要 运用 其 他 技能 来 让 数据 库 更 好 地 
运行 时 ， 他 们 便 去 学 习 ， 例 如 学 习 如 何在 CPU 或 磁盘 之 间 分 配 负载 ， 如 何 配置 数据 库 以 
提高 CPU 性 能 ， 以 及 如 何 评 佑 存储 子 系统 。 


当 遇 到 可 见 性 问题 时 ， 数 据 库 管理 员 会 学 习 如 何 为 关键 指标 构建 图 表 ， 当 遇 到 架构 限制 
时 ， 他 们 会 去 了 解 缓存 层 ， 当 遇 到 单 点 瓶颈 时 ， 他 们 会 学 习 (并 帮助 推动 开发 ) 新 的 设计 
模式 ， 比 如 分 片 。 甚 间 他 们 掌握 了 新 的 操作 技术 ， 例 如 缓存 失效 、 数 据 重 新 分 布 和 滚动 升 
级 数据 库 变更 等 。 


长 期 以 来 ， 数 据 库 管理 员 总 是 忙于 自己 的 事 。 各 岗位 所 用 的 工具 不 同 ， 硬 件 不 同 ， 语 言 也 
不 同 : 数据 库 管理 员 用 SQL， 系 统 工程 师 用 Perl， 软 件 工 程 师 用 C++，Web 开发 人 员 用 
PHP， 网 络 工 程 师 则 在 打造 自己 的 工具 。 只 有 一 半 的 困 队 以 某 种 方式 使 用 过 版 本 控制 系统 ， 
而 且 他 们 不 会 谈论 或 干涉 彼此 的 领域 。 这 是 为 何 ? 因为 那样 就 会 踏 入 陌生 领域 。 


这 种 模式 有 效 和 可 持续 的 好 日 子 快 到 头 了 。 本 书 通 过 数据 库 工程 师 的 视角 来 展现 可 靠 性 工 
程 。 本 书 无 意 涵盖 所 有 内 容 ， 而 是 描述 对 你 的 职业 生涯 重要 的 事情 。 而 且 ， 该 框架 适用 于 
各 种 数据 存储 、 架 构 和 组 织 。 


写作 初衷 


本 书 是 我 们 近 5 年 工作 的 经 验 总 结 。 莱 恩 没 有 接受 过 任何 正式 的 技术 培训 就 担当 了 数据 库 
管理 员 。 她 既 不 是 软件 工程 师 ， 也 不 是 系统 管理 员 ， 而 是 从 音乐 和 戏剧 行业 转 入 技术 领域 
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的 。 数 据 库 的 结构 、 和 谐 、 对 位 和 编排 的 思想 深 座 吸引 了 她 。 


自 那 时 起 ， 她 便 开始 学 习 数 据 库 知识 ， 并 与 近 百 名 数据 库 管理 员 一 起 工作 过 。 数 据 库 人 员 
的 背景 五 花 八 门 ， 有 些 有 软件 背景 ， 有些 有 系统 背景 ， 有 些 其 至 来 自 数据 分 析 领 域 和 商业 
领域 。 然 而 ， 优 秀 的 数据 库 管 理 员 对 公司 数据 的 安全 性 和 可 用 性 始终 怀抱 热情 ， 以 为 己 
任 ， 以 无 上 的 激情 和 超 高 的 工作 强度 履行 职责 。 此 外 ， 数 据 库 管 理 员 也 在 软件 工程 师 和 系 
统 工 程 师 之 间 扮 演 关 键 角 色 。 由 于 涉及 各 个 领域 ， 数 据 库 管理 员 也 被 视 为 最 初 的 DevOps 
工程 师 。 


夏 丽 蒂 一 直 在 创业 公司 从 事 运 维 工 作 。 她 有 丰富 的 创业 公司 工作 经 历 ， 擅 于 快速 启动 基础 
设施 、 做 出 关键 决策 、 承 担 风 险 以 及 基于 有 限 资 源 做 出 艰难 选择 ， 并 屡 获 成 功 。 一 个 偶然 
的 机 会 ， 喜欢 数据 的 她 成 为 了 数据 库 管 理 员 。 因 为 之 前 她 所 在 的 运 维 团队 没有 专门 的 数据 
库 管 理 员 ， 所 以 开发 团队 和 运 维 团队 最 终 承担 了 数据 库 管理 员 的 工作 。 
































































































































我 们 基于 长 期 的 工作 经 历 以 及 不 同 的 职业 背景 ， 重 新 审视 并 拥抱 近 十 年 的 变化 。 数 据 库 管 
理 员 的 工作 通常 艰辛 而 默默 无 闻 。 现 在 ， 有 了 方法 和 公众 支持 来 把 这 个 角色 “点 亮 "， 让 
数据 库 管理 员 可 以 专注 于 创造 更 多 价值 。 
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本 书 力图 延续 前 几 代 人 的 影响 ， 帮 助 下 一 代 工 程 师 享受 职业 生涯， 取得 更 多 成 就 。 


= 

读者 对 象 
本 书 适 合 所 有 对 设计 、 构 建 和 运 维 可 靠 性 数据 存储 系统 感 兴趣 的 人 士 。 无 论 是 希望 拓展 数 
据 库 相关 知识 的 软件 工程 师 或 系统 工程 师 ， 还 是 希望 进一步 提升 技能 的 数据 库 专业 人 员 ， 
都 能 从 本 书 获 益 。 行 业 新 人 也 能 通过 阅读 本 书 加 深 理解 ， 毕 竟 本 书 讲 的 是 框架 。 
本 书 假设 你 基本 掌握 了 Linux/UNIX 系统 管理 以 及 Web 或 云 架 构 的 基础 技术 ， 对 其 他 专 】 


(系统 管理 或 软件 工程 )》 有 一 定 了 解 ， 想 拓展 技能 (数据库 软件 技术 ) ; 或 者 你 正 处 于 职业 
生涯 的 初期 或 中 期 , 希望 朝 着 数据 库 专 家 的 方向 深化 技术 。 


如 果 你 是 管理 人 员 ， 其 至 是 项 目 管理 人 员 ， 阅 读本 书 可 以 了 解 服务 对 数据 存储 的 需求 。 我 
们 坚信 ， 管 理 人 员 需 要 理解 数据 库 的 原理 和 运 维 ， 以 助力 团队 和 项 目 取 得 成 功 。 
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你 可 能 没有 传统 的 技术 背景 。 也 许 你 是 “半路 出 家 ”的 数据 库 管 理 员 ， 曾 经 是 业务 分 析 
师 ， 进 入 了 数据 库 的 知识 海 祷 来 学 习 如 何 使 用 数据 库 。 很 多 数据 库 专 业 人 员 是 通过 Excel 
而 不 是 开发 或 系统 方面 的 工作 踏 入 数据 库 领 域 的 。 


PZ 呈 
内 容 安排 
本 书 分 为 两 大 部 分 : 前 一 部 分 是 运 维 核 心 课 程 ， 讲 解数 据 库 工程 师 、 软 件 工程 师 ， 甚 至 产 

















品 负 责 人 都 应 该 掌握 的 运 维 基础 知识 ， 后 一 部 分 将 深 入 研究 数据 本 身 ， 包 括 建 模 、 存 储 、 
复制 、 访 问 等 ， 还 会 讨论 架构 选 型 和 数据 流水 线 技术 。 


有 这 样 一 种 说 法 : 如 果 你 不 是 优秀 的 工程 师 ， 就 不 是 优秀 的 可 靠 性 工程 师 ， 更 不 可 能 成 为 
优秀 的 数据 库 可 靠 性 工程 师 。 现 代数 据 库 可 靠 性 工程 师 专门 研究 系统 工程 基础 之 上 的 数据 
特定 领域 问题 。 


重点 是 ， 任 何 工 程 师 都 可 以 运行 数据 服务 。 我 们 有 共同 的 语言 ， 使 用 相同 的 代码 库 和 相同 
的 代码 审查 流程 。 运 维 数据 库 是 运 维 工 程 的 延伸 〈 像 把 特定 知识 和 认 知 的 奶油 糖 赴 按 比例 
履 在 运行 一 定 规模 系统 的 蛋糕 上 )， 正 如 杰出 的 网 络 工程 师 不仅 要 知道 如 何 成 为 工程 师 ， 
还 要 知道 如 何 处 理 流量 、 应 该 担心 出 现 什么 状况 、 当 前 的 最 佳 实践 、 如 何 评 佑 网 络 拓 扑 结 


构 等 。 
每 章 的 内 容 简介 如 下 。 


第 1 章 介绍 数据 库 可 靠 性 工程 的 概念 。 从 指导 原则 开始 ， 然 后 过 渡 到 运 维 核心 ， 最 后 基于 
马 斯 洛 的 需求 层次 理论 介绍 建立 数据 库 可 靠 性 工程 师 愿 景 的 框架 。 


第 2 章 介绍 服务 等 级 的 要 求 ， 这 和 产品 的 特性 要 求 同 样 重要 。 这 一 章 将 讨论 什么 是 服务 等 
级 的 要 求 及 其 定义 方式 ， 这 一 内 容 并 不 像 听 起 来 那么 简单 。 然 后 将 讨论 随 着 时 间 的 推移 如 
何 衡量 和 处 理 这 些 要 求 。 
第 3 章 讨论 风险 评估 和 管理 。 简 单 讨 论 风 险 后 ， 介 绍 将 风险 评估 纳入 系统 和 数据 库 工 程 的 
实际 流程 ， 并 且 讲解 其 中 的 陷阱 和 复杂 性 。 




































































第 4 章 讨论 运 维 可 见 性 。 这 一 章 会 讨论 度量 值 和 事件 、 如 何 设置 度量 指标 ， 以 及 如 何 随 着 
时 间 和 迭代 。 我 们 将 深入 讲解 监控 系统 的 组 件 及 其 客户 端 。 


第 5 章 和 第 6 章 深入 讨论 基础 设施 工程 和 管理 ， 包 括 为 数据 存储 服务 构建 主机 的 原则 。 我 
们 将 深入 研究 虚拟 化 和 容器 化 、 配 置 管理 、 自 动 化 、 编 排 ， 帮助 你 理解 构建 存储 系统 所 需 
的 全 部 动态 组 件 。 


第 7 章 介 绍 备份 和 恢复 。 这 也 许 是 数据 库 工程 师 需 要 掌握 的 最 关键 的 技术 。 数 据 丢 失意 味 
着 一 切 都 完了 。 从 服务 等 级 的 要 求 开 始 ， 我 们 评估 恰当 的 备份 和 恢复 方法 ， 以 及 如 何 扩展 
和 测试 这 一 在 运 维 中 非常 重要 却 容易 被 忽略 的 操作 。 


第 8 章 讨论 发 布 管理 。 这 一 章 将 介绍 如 何 对 数据 存储 服务 进行 测试 、 构 建 和 部 署 变更 ， 以 
及 如 何 更 改 数据 访问 代码 和 SQL。 部 署 、 集 成 和 交付 是 这 一 章 的 核心 内 容 。 

第 9 章 讨论 数据 安全 。 数 据 安全 关 平 公司 存亡 。 这 一 章 将 讲解 在 不 断 演进 的 数据 库 基 础 设 
施 中 规划 和 管理 安全 性 的 策略 。 










































































第 10 章 讨论 数据 存储 、 索 引 和 复制 。 这 一 章 将 介绍 关系 数据 是 如 何 存储 的 ， 然 后 将 其 与 
有 序 字符 串 和 LSM 树 进行 比较 。 在 回顾 各 种 索引 之 后 ， 将 探索 数据 复制 拓扑 。 


第 11 章 是 数据 存储 领域 指南 ， 将 讨论 评估 或 操作 的 数据 存储 的 各 种 属性 ， 其 中 包括 对 应 
用 程序 开发 人 员 和 架构 师 而 言 都 非常 重要 的 概念 属性 ， 以 及 侧重 于 数据 存储 物理 实现 的 内 
部 属性 。 


第 12 鞋 介绍 分 布 式 数 据 库 的 常用 架构 模式 ， 以 及 其 中 用 到 的 数据 流水 线 技术 。 首 先 会 介 
绍 数据 库 生 态 系 统 中 典型 的 架构 组 件 及 其 优点 、 复 杂 性 和 一 般 用 法 ， 然 后 介绍 架构 和 数据 
流水 线 技术 ， 并 给 出 少量 示例 。 

















第 13 章 介 绍 如 何在 组 织 中 建设 数据 库 可 靠 性 工程 文化 ， 探 讨 在 当今 情形 下 ， 从 传统 管理 
员 转 变 为 数据 库 可 靠 性 工程 师 的 多 种 方法 。 


排版 约定 


本 书 使 用 以 下 排版 约定 。 


口 黑体 
表示 新 术语 或 重点 强调 的 内 容 。 











口 等 宽 字 体 (constant width) 
表示 程序 片段 ， 以 及 正文 中 出 现 的 变量 、 函 数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 
和 关键 字 等 。 

口 等 宽 粗 体 (constant width bold) 

表示 应 该 由 用 户 输入 的 命令 或 其 他 文本 。 





口 等 宽 和 斜体 (constant width italic) 
表示 应 该 由 用 户 输入 的 值 或 根据 上 下 文 确定 的 值 殖 换 的 文本 。 











该 图 标 表示 提示 或 建议 。 
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数据 库 可 靠 性 工程 介绍 











本 书 则 在 为 读者 提供 指导 与 框架 ， 助 你 成 为 优秀 的 数据 库 可 靠 性 工程 师 。 











们 选择 了 面向 可 靠 性 工程 师 ， 而 非 管理 员 。 
谷歌 工程 副 总 裁 本 ' 特 雷 诺 就 可 靠 性 工程 发 表 了 如 下 看 法 : 

















在 定 书 名 时 ， 我 


基本 上 是 以 前 由 运 维 团队 完成 的 工作 ， 换 成 拥有 软件 专业 知识 的 工程 师 来 做 ， 


并 且 指 望 其 有 意愿 和 能 力 用 自动 化 代替 人 工 劳动 。 


如 今 的 数据 库 专 业 人 员 必 须 是 工程 师 ， 而 不 是 管理 员 。 我 们 构建 、 





创造 新 导 





了 物 。 作 为 实践 


DevOps 的 工程 师 ， 我 们 一 起 工作 ， 共 担 责任 。 作 为 工程 师 ， 我 们 利用 可 复 用 的 流程 、 掌 








握 的 知识 和 积累 的 经 验 ， 来 设计 、 构 建 和 操作 生产 级 数据 存储 及 其 























当 一 个 组 件 下 线 之 后 ， 就 会 启动 其 他 许多 组 件 ， 以 保证 服务 质量 。 








数据 结构 。 而 作为 数据 


库 可 靠 性 工程 师 ， 我 们 必须 进一步 深入 掌握 操作 原则 和 数据 库 专业 知识 。 





如 果 了 解 当今 基础 设施 的 非 存 储 组 件 ， 就 会 发 现 通 过 编程 《通常 是 自动 的 ) 方式 ， 易 于 构 
建 、 运 行 以 及 销毁 系统 。 这 些 组 件 的 生命 周期 较 短 ， 以 天 计 ， 有 时 甚至 以 小 时 或 分 钟 计 。 





我 们 的 下 一 个 目标 是 ， 在 可 靠 性 工程 和 DevOps 文化 的 范式 下 ， 为 设计 、 构 建 和 维护 数据 
存储 确立 指导 原则 和 实践 框架 。 无 论 你 所 在 的 企业 处 于 哪个 发 展 阶段 ， 都 可 以 把 这 些 知识 











应 用 于 任何 数据 库 技术 或 环境 中 。 





AL = = 已 
1.1 数据 库 可 靠 性 工程 师 的 指导 原则 

我 们 当初 动笔 的 时 候 ， 问 自己 的 第 一 个 问题 是 : 数据 库 行业 这 种 新 的 迭代 逻辑 背后 的 原则 
是 什么 ? 如 果 重 新 定义 设计 、 管 理 数据 存储 的 方式 ， 就 需要 定义 受 推崇 的 行为 准则 。 


1.1.1 保护 数据 
传统 上 ， 保护 数 据 一 直 是 数据 库 专 业 人 员 的 基本 原则 ， 现 在 仍 是 如 此 。 以 下 是 普遍 接受 的 
做 法 。 


。 软件 工程 师 和 数据 库 工程 师 的 职责 严格 分 离 。 

。 有 严格 的 备份 和 恢复 流程 ， 并 定期 测试 。 

。 有 规范 的 安全 六 程 ， 并 定期 审计 。 

。 有 昂贵 的 数据 库 软件 ， 并 且 持 入 、 可 靠 。 

。 有 昂贵 的 底层 存储 系统 ， 并 且 所 有 组 件 都 有 宛 余 。 
。 大 范围 的 变更 管控 和 操作 管理 。 

在 具有 协作 文化 氛围 的 团队 中 ， 职 责 严 格 分 离 不 仅 是 一 种 负担 ， 还 会 限制 创新 和 速度 。 第 
8 章 将 讨论 创建 安全 网 的 方式 ， 以 此 应 对 职责 分 离 的 问题 。 此 外 ， 这 些 环境 更 关 广 测 试 、 
自动 化 和 减轻 影响 ， 而 不 是 大 范围 的 变更 管控 。 
































架构 师 和 工程 师 比 以 往 更 倾向 于 选择 开源 数据 存储 ， 而 这 些 数据 存储 不 像 Oracle 那样 能 保 
证 持久 性 。 这 种 非 严格 的 持久 性 ， 有 时 会 给 业务 快速 发 展 的 团队 带 来 所 需 的 性 能 优势 。 第 
11 音 将 讨论 如 何 选择 正确 的 数据 存储 方式 ， 以 及 这 些 选择 的 影响 。 了 解数 据 处 理工 具 ， 并 
能 有 效 地 选择 合适 的 工具 ， 属 于 必 备 技能 。 


底层 存储 也 发 生 了 重大 变化 。 在 虚拟 化 时 代 ， 网 络 和 临时 存储 在 数据 库 设计 中 占有 一 席 之 
地 ， 第 5 章 将 进一步 讨论 这 个 问题 。 











构建 在 临时 存储 之 上 的 生产 数据 库 
2013 年 ，Pinterest 将 MySQL 数据 库 实例 迁移 到 AWS (亚马逊 云 服 务 ) 的 临时 存储 
上 。 临 时 存储 实际 上 意味 着 ， 如 果 计 算 实 例 发 生 故 障 或 关闭 ， 磁 盘 上 存储 的 所 有 东西 
都 将 丢失 。Pinterest 之 所 以 选择 临时 存储 ， 是 因为 它 吞 吐 量 可 观 且 延 迟 较 低 。 
要 做 到 这 一 点 ， 需 要 在 自动 化 、 完 善 的 数据 备份 和 恢复 ， 以 及 应 用 程序 方面 大 量 投资 ， 
以 容 似 在 重建 节点 时 导致 集群 失效 。 临 时 存储 不 允许 快照 ， 这 意味 着 不 能 通过 快照 前 
滚 事 务 日 志 的 方式 进行 恢复 ， 而 要 通过 网 络 复制 完整 的 数据 库 。 
这 表明 ， 运 用 正确 的 流程 和 工具 ， 可 以 在 临时 存储 的 环境 中 保证 数据 的 安全 性 。 














数据 保护 的 新 方法 大 致 如 下 。 


。 跨 职能 团队 共 担 责任 。 
由 数据 库 可 靠 性 工程 师 提供 支持 的 标准 化 、 自 动 化 备份 和 恢复 过 程 。 
由 数据 库 可 靠 性 工程 师 和 安全 团队 提供 支持 的 标准 化 安全 策略 和 流程 。 
。 自动 化 配置 和 部 署 应 用 的 全 部 策略 。 
。 数据 需求 决定 数据 存储 ， 对 持久 性 需求 的 评估 将 成 为 决策 过 程 的 一 部 分 。 
。 依赖 自动 化 过 程 、 元 余 和 经 过 反复 检验 的 良好 实践 ， 而 不 是 昂贵 、 复 杂 的 硬件 。 
。 在 部 署 和 基础 设施 自动 化 过 程 中 实现 变更 ， 重 点 关注 测试 、 回 退 和 减轻 影响 。 



































1.1.2 大量 自 助 服务 

到 目前 为 止 ， 有 才干 的 数据 库 可 靠 性 工程 师 比 SRE (site reliability engineer， 网 站 可 靠 性 工 
程 师 ) 更 稀有 ， 大 多 数 公司 雇 不 起 两 位 以 上 这 样 的 员工 。 因 此 ， 我 们 必须 通过 为 团队 创建 
自助 服务 平台 ， 创 造 尽 可 能 多 的 价值 。 制 定 标准 并 提供 工具 ， 以 便 团 队 能 够 顺利 部 署 新 服 
务 ， 并 按照 所 需 的 速度 适当 地 更 改 ， 而 无 须 依 赖 数 据 库 工 程 师 超 负荷 工作 。 自 助 服务 的 例 
子 包 括 : 


。 提供 合适 的 插件 ， 确 保 从 数据 存储 中 收集 适当 的 度量 值 ， 

。 构建 备份 和 恢复 工具 ， 使 其 可 以 部 署 到 新 的 数据 存储 中 ， 

。 为 数据 存储 定义 参考 架构 和 配置 , 这 些 数据 存储 被 批准 用 于 操作 , 并 且 可 以 由 团队 部 署 ; 
。 和 安全 团队 一 起 定义 数据 存储 部 署 的 标准 ， 

。 为 数据 库 变 更 集 构 建安 全 的 部 署 方式 和 测试 脚本 。 


换言之 ， 高 效能 数据 库 可 靠 性 工程 师 的 职责 是 授权 和 指导 他 人 ， 而 不 是 充当 “守卫 ”。 


1.1.3 消除 琐事 
谷歌 SRE 团队 经 常 使 用 短语 “消除 琐事 ”(elimination of toil)，《SRE: Google 运 维 解密 》 
一 书 的 第 5 章 对 此 做 了 讨论 。 该 书 将 “琐事 ”定义 如 下 : 









































与 运行 生产 服务 相关 的 工作 ， 往 往 是 手动 的 、 重 复 性 的 、 自 动 化 的 、 策 略 性 的 、 
缺乏 持久 价值 的 ， 并 且 随 着 服务 的 增长 而 线性 扩展 。 


有 效 的 自动 化 和 标准 化 是 必要 的 ， 可 以 确保 数据 库 可 靠 性 工程 师 不 会 困 于 琐事 。 本 书 将 列 
举 数据 库 可 靠 性 工程 师 所 面临 的 一 些 琐事 及 其 缓解 之 法 。 尽 管 如 此 ,“ 琐 事 ” 这 个 词 的 含 
义 仍 然 是 模糊 的 ， 有 很 多 先 和 人 之 见 ， 且 因 人 而 异 。 本 书 讨论 “琐事 ”时 ， 着 重 谈论 重复 
性 、 非 创造 性 和 非 挑 战 性 的 人 工 工作 。 
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手动 变更 数据 库 
在 许多 客户 环境 中 ， 数 据 库 工 程 师 被 要 求 审 查 和 实施 数据 库 变更 ， 例 如 修改 表 或 索引 ， 
添加 、 修 改 或 删除 数据 ， 等 等 。 所 有 人 都 安心 于 数据 库 管 理 员 正在 实施 这 些 变更 ， 并 
实时 监控 变更 的 影响 。 
在 客户 现场 ， 变 更 的 频率 非常 高 ， 并 且 这 些 变更 常常 是 有 影响 的 。 最 终 数据 库 管 理 员 
每 周 花 20 个 小 时 对 整个 环境 实施 滚动 变更 。 毫 无 疑问 ， 花 半 周 的 时 间 来 执行 这 些 重 复 
性 的 任务 ， 难 免 让 人 心 生 不 满 ， 意 欲 放 育 。 


面 对 资 源 短 缺 ， 管 理 层 最 终 允 许 数据 库 团队 构建 一 个 滚动 变更 Schema 的 自动 化 工具 。 
一 旦 数据 库 工 程 师 审查 并 批准 了 变更 集 ， 软 件 工 程 师 就 可 以 运行 该 程序 实施 数据 库 变 
更 了 。 之 后 所 有 人 都 能 放心 地 使 用 工具 引入 变更 并 监控 ， 从 而 让 数据 库 可 靠 性 工程 师 
团队 有 更 多 时 间 来 把 这 些 流程 集成 到 部 署 平台 。 











1.1.4 数据 库 并 不 特殊 

我 们 的 系统 与 满足 业务 需求 的 其 他 组 件 一 样 重要 。 我 们 必须 努力 实现 标准 化 、 自 动 化 和 弹 
性 。 对 此 至 关 重 要 的 是 ， 数 据 库 集群 的 组 件 并 非 神 对 的。 有 了 时 我 们 会 移 除 茶 些 组 件 ， 毫 无 
顾虑 地 进行 替换 。 玻 璃 房 里 脆弱 的 数据 存储 已 成 历史 。 


“宠物 ”和 “和 牛 ”的 比喻 通常 用 于 描述 定制 的 服务 组 件 和 通用 服务 组 件 之 间 的 区 别 ， 这 个 
比喻 来 自 微软 杰出 的 工程 师 比 尔 * 贝克 。“ 宠 物 ” 服 务 器 是 指 当 它们 出 现 异 常 时 ， 你 需要 精 
心照 顾 以 使 其 恢复 健康 。 它 们 也 有 名 字 。2000 年 在 Travelocity 时 ， 我 们 的 服务 器 以 动画 片 
《辛普森 一 家 》 中 的 角色 命名 ， 运 行 Oracle 的 两 台 SGI 服务 器 分 别称 作 Patty 和 Selma。 我 
在 深夜 伦 了 很 多 时 间 处 理 这 两 台 服 务 器 的 问题 ， 它 们 的 维护 成 本 很 高 。 





























“ 牛 ”服务 器 上 有 数字 ， 但 没有 名 字 。 不 需要 花 时 间 定 制服 务 器 ， 更 不 用 说 登录 各 个 主机 
了 。 当 它们 显现 “生病 ”( 异 常 ) 的 迹象 时 ， 就 把 它们 从 “和 牛 群 ” (集群 ) 中 剔除 。 当 然 ， 
如 果 你 发 现 患 病 的 “ 牛 ” 达 到 一 定 的 数量 时 ， 就 应 该 把 那些 待 字 的 “ 牛 ” 留 给 “兽医 ” 检 
查 。 但 是 ， 不 必 把 这 个 比喻 搞 得 更 复杂 。 

数据 存储 是 拥有 “宠物 特质 ”的 最 后 一 部 分 系统 。 毕 竟 它 们 拥有 “数据 "， 所 以 不 能 简单 
地 将 它们 视 为 寿命 短 、 标 准 化 程度 高 、 可 替代 的 “ 牛 “。 那 么 副本 的 特殊 规则 呢 ? 从 服务 
器 的 不 同 配置 呢 ? 


1.1.5 消除 软件 和 运 维 之 间 的 障碍 

基础 设施 、 配 置 、 数 据 模 型 和 脚本 都 是 软件 的 组 成 部 分 。 我 们 要 像 其 他 工程 师 那 样 ， 学 习 
并 采用 软件 生命 周期 的 方式 进行 管理 编码、 测试 、 集 成 、 构 建 、 测 试 和 部 署 。 我 们 提 到 
测试 了 吗 ? 
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对 于 熟悉 运 维 和 脚本 的 人 而 言 ， 这 可 能 是 最 艰难 的 范例 转换 。 在 软件 工程 师 引 导 组 织 、 系 
统 和 服务 以 满足 需求 时 ， 组 织 内 可 能 存在 阻抗 不 匹配 (impedance mismatch) 。 软 件 工程 组 
织 有 非常 明确 的 方法 来 开发 、 测 试 、 部 署 功能 和 应 用 程序 。 

在 传统 环境 中 ， 设 计 、 构 建 、 测 试 以 及 部 署 基础 设施 和 相关 服务 的 基本 流程 ， 在 软件 工 
程 、 系 统 工程 和 数据 库 管理 员 之 间 是 分 裂 的 。 之 前 讨论 的 范式 转换 正在 消除 这 种 不 匹配 ， 
这 意味 着 数据 库 可 靠 性 工程 师 和 系统 工程 师 需 要 使 用 相似 的 方法 来 完成 工作 。 























软件 工程 师 必须 学 习 运 维 

运 维 人 员 经 常 被 告知 “学 习 编 程 ， 否 则 辞退 "。 我 认同 这 一 点 ， 但 软件 工程 
师 也 必须 学 习 运 维 。 那 些 设 有 学 习 运 维和 基础 设施 原理 的 软件 工程 师 ， 编 写 
的 代码 往往 脆弱 、 低 效 ， 甚 至 不 安全 。 只 有 所 有 团队 水 平 相当 ， 阻 抗 不 匹配 
会 消失 。 





























数据 库 可 靠 性 工程 师 也 可 能 发 现 自己 直接 融入 了 软件 工程 团队 ， 在 相同 的 代码 库 中 工作 ， 
检查 这 些 代码 如 何 与 数据 存储 交互 ， 修 改 代 码 以 优化 性 能 、 完 善 功能 、 增 强 可 靠 性 。 消 除 
这 种 团队 阻抗 之 后 ， 相 较 于 传统 模型 ， 可 靠 性 、 性 能 和 速度 会 提升 一 个 数量 级 ， 并 且 数 据 
库 可 靠 性 工程 师 必须 适应 这 些 新 流程 、 文 化 和 工具 。 


1.2 ” 运 维 核心 概述 
运 维 是 数据 库 可 靠 性 工程 师 的 核心 技能 之 一 ， 是 设计 、 构 建 、 测 试 和 维护 具有 一 定 规模 量 
要 求 高 可 靠 性 系统 的 基石 。 这 意味 着 如 果 你 想 成 为 数据 库 工 程 师 ， 就 需要 知道 这 些 。 




















宏观 层面 的 运 维 不 是 一 个 角色 。 运 维 是 企业 围绕 发 布 与 维护 高 质量 系统 和 软件 ， 所 积累 的 
技能 、 知 识 和 价值 观 的 总 和 。 它 既是 隐 性 价值 观 ， 也 是 显 性 价值 观 、 习 惯 、 团 队 知识 和 奖 
励 体系 。 从 技术 支持 人 员 到 产品 人 员 ， 再 到 首席 执行 官 ， 共 同 参与 运 维 。 


这 一 点 通常 做 得 不 好 。 许 多 公司 的 运 维 文化 很 糟 灿 ，, 令 人 生 厌 。 这 可 能 会 影响 
是 在 系统 、 数 据 库 还 是 网 络 方面 ， 许 多 人 在 想到 运 维 工作 时 就 会 想到 这 一 点 。 尽 管 如 此 ， 
运 维 文化 仍然 是 组 织 如 何 执 行 技 术 任 务 的 关键 。 如 果 说 哪 家 公司 完全 没有 运 维 ， 肯 定 不 
可 信 。 


也 许 你 是 软件 工程 师 或 者 是 基础 设施 和 平台 即 服务 的 支持 者 ， 也 许 你 质疑 数据 库 工 程 师 是 
否 需 要 懂 运 维 ， 并 认为 Serverless 可 以 让 软件 工程 师 无 须 思考 或 关心 运 维 工 作 ， 这 种 想法 
是 完全 错误 的 。 事 实 恰恰 相反 ， 这 是 一 个 没有 运 维 团队 的 美丽 新 世界 一 一 为 你 做 运 维 工作 
的 是 谷歌 SRE、AWS 系统 工程 师 、PagerDuty 和 DataDog 等 。 在 当今 世界 ， 应 用 工程 师 需 
要 在 运 维 、 架 构 和 性 能 方面 做 得 更 好 。 
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1.3 需求 层次 

你 可 能 在 大 企业 或 创业 公司 工作 过 。 当 接触 并 研究 系统 时 ， 有 必要 考虑 一 下 ， 如 果 让 你 承 
担 运 维 数据 库 系 统 的 工作 ， 第 一 天 你 会 做 些 人 什么。 有 备份 蚂 ? 备份 能 正常 工作 吗 ? 你 确定 
吗 ? 是 否 有 可 以 进行 故障 转移 的 副本 ? 你 知道 如 何 进行 故障 转移 吗 ? 备份 的 电源 、 路 由 
器 、 硬 件 或 可 用 区 与 主 服 务 器 相同 吗 ? 当 备 份 工作 不 正常 时 ， 你 能 发 现 吗 ? 如 何 发 现 ? 


换言之 ， 我 们 需要 讨论 数据 库 需求 的 层次 结构 。 



































按照 马 斯 洛 的 需求 层次 理论 ， 人 类 的 欲望 像 一 座 金字 塔 ， 由 下 至 上 分 别 是 : 生存 、 安 全 、 
爱 和 归属 感 、 尊 重 以 及 自我 实现 ， 而 只 有 满足 需求 ， 人 类 才能 蓬勃 发 展 。 金 字 塔 的 底部 是 
最 基本 的 需求 ， 比 如 生存 。 每 一 层 的 需求 都 是 进入 更 高 一 层 的 条 件 一 一 在 获得 安全 感 之 前 
要 先 满足 生存 需求 ， 在 获得 爱 和 归属 感 之 前 要 先 满 足 安全 需求 ， 以 此 类 推 。 一 旦 满足 了 下 
面 4 个 层次 的 需求 ， 人 类 就 达到 了 自我 实现 ， 可 以 安全 地 探索 、 游 戏 、 创 造 和 充分 发 展 ; 
能 。 这 就 是 它 对 于 人 类 的 意义 。 下 面 用 这 个 比喻 来 说 明 数 据 库 需要 什么 。 


1.3.1 生存 和 安全 
数据 库 最 基本 的 需求 是 备份 、 复 制 和 故障 转移 。 你 有 数据 库 吗 ? 数据 库 运 作 正 常 吗 ? 可 以 
ping 通 吗 ? 应 用 程序 有 了 响应 吗 ? 有 备份 吗 ? 恢复 有 效 吗 ? 你 怎么 知道 它 工 作 不 正常 ? 


你 的 数据 安全 吗 ? 是 否 有 多 个 可 用 副本 ? 你 知道 怎么 进行 故障 转移 吗 ? 你 的 副本 是 分 布 在 
多 个 可 用 区 、 多 个 电源 板 和 机 架 上 吗 ? 各 个 备份 是 否 一 致 ? 你 能 恢复 到 某 个 时 间 点 吗 ? 你 
能 发 现 数据 有 损坏 吗 ? 如 何 发 现 呢 ? 第 7 章 将 深入 探讨 这 些 内 容 。 


这 也 是 开始 准备 扩展 的 时 候 。 过 早 地 扩展 不 可 取 ， 但 在 确定 关键 数据 对 象 的 ID 、 存 储 系统 
和 架构 时 ， 应 该 券 虑 分 片 、 增 长 和 扩展 。 
















































































扩展 模式 

本 书 会 经 常 提 到 扩展 。 扩 展 性 是 系统 或 服务 应 对 负载 不 断 增 加 的 能 力 。 这 可 能 是 真实 
的 能 力 ， 因 为 已 经 部 署 了 所 有 支持 数据 增长 的 部 件 ; 也 可 能 是 潜在 的 能 力 ， 因 为 处 理 
组 件 和 资源 增加 的 基石 已 经 铺 好 。 一 般 而 言 ， 可 以 通过 以 下 4 种 途径 实现 扩展 。 

通过 分 配 资源 实现 垂直 扩展 ， 也 称 垂直 扩展 。 

通过 复制 系统 或 服务 实现 水 平 扩展 ， 也 称 水 平 扩展 。 

将 工作 负载 分 成 较 小 的 功能 集 ， 让 每 个 工作 单元 能 够 独立 扩展 ， 也 称 功能 分 区 。 

将 特定 工作 负载 分 成 相同 的 分 区 ， 而 不 是 分 成 正在 处 理 的 特定 数据 集 ， 也 称 分 片 。 
第 5 章 将 介绍 上 述 模式 的 具体 细节 。 














1.3.2” 爱 和 归属 感 

爱 和 归属 感 意味 着 ， 在 软件 工程 过 程 中 ， 把 数据 当 作 一 等 公民 ， 打 破 数据 库 和 其 他 系统 
之 间 的 竖井 (silo)。 这 既是 技术 上 的 ， 也 是 文化 上 的 ， 而 这 就 是 可 以 称 其 为 “DevOps 需 
求 ” 的 原因 。 从 高 层次 上 讲 ， 这 意味 着 要 像 管理 其 他 系统 一 样 管理 数据 库 ， 也 意味 着 在 
文化 上 鼓励 流动 性 和 跨 职 能 。 在 爱 和 归属 感 阶段 ， 你 会 逐渐 停止 登录 系统 和 以 root 身份 


执行 命令 。 


在 该 阶段 ， 你 们 会 采用 相同 的 代码 审查 流程 和 部 署 实践 。 数 据 库 基础 设施 和 配置 应 该 采用 
与 其 他 所 有 架构 组 件 相 同 的 流程 。 与 数据 打交道 ， 应 该 和 跟 应 用 的 其 他 部 分 打交道 一 样 ， 
这 会 鼓励 所 有 人 参与 其 中 并 支持 数据 库 环境 。 


克制 向 开发 人 员 灌 输 孢 慢 的 冲动 。 这 很 容易 做 到 ， 也 很 有 诱惑 力 ， 因 为 一 切 尽 在 和 掌控 的 
感觉 非常 好 。 但 事实 并 非 如 此 ， 而 且 你 也 无 法 掌控 一 切 。 如 果 你 把 精力 放 到 构建 “护栏 ” 
上 ， 以 防止 任何 人 意外 破坏 ， 对 所 有 人 来 说 会 更 好 。 培 养 和 授权 所 有 人 对 自己 的 变更 负 
责 。 不 要 再 提 杜 绝 故 障 ， 因 为 这 是 不 可 能 的 。 换 言 之 ， 创 建 有 弹性 的 系统 ， 并 且 鼓 励 所 有 
人 使 用 数据 存储 。 







































































Etsy 的 “护栏 ” 

Etsy 引入 了 一 个 名 为 Schemanator 的 工具 来 实施 数据 库 变 更 (或 者 说 变更 集 )， 这 对 生 
产 环境 来 说 是 非常 安全 的 。 多 个 “护栏 ”的 存在 能 让 软件 工程 师 直接 实施 数据 库 变更 。 
这 些 “ 护 栏 ” 如 下 所 示 。 

变更 集 的 探索 性 审查 ， 以 验证 schema 设计 是 否 遵循 了 相应 规范 。 

变更 集 的 测试 ， 以 验证 脚本 能 否 执行 成 功 。 
。 预先 检查 ， 让 工程 师 知 晓 集群 的 当前 状态 。 

滚动 升级 ， 对 “离线 ”的 数据 库 执 行 有 影响 的 变更 。 
。 把 工作 流 分 解 为 子 任 务 ， 以 便 在 发 生意 外 时 可 以 取消 。 











1.3.3 ” 苯 重 

尊重 处 于 需求 金字 塔 的 次 顶端 。 对 人 类 来 说 ， 这 意味 着 普 重 和 和 掌控， 对 数据 库 来 说 ， 这 意 
味 着 可 观测 性 、 可 调试 性 、 自 我 检查 和 可 探测 性 。 关 键 是 ， 不 仅 要 了 解 存 储 系统 本 身 ， 还 
要 能 关联 相关 事件 。 同 样 ， 该 阶段 包含 两 个 方面 : 一 是 当前 阶段 生产 服务 的 演进 方式 ， 二 
是 人 员 。 

服务 本 身 应 该 能 表明 它 是 运行 正常 还 是 宕 机 或 者 出 错 了 ， 而 无 须 你 查看 监控 图 。 随 着 服务 


的 成 熟 ， 由 于 系统 演变 轨迹 变 得 更 加 可 预测 ， 因 此 变更 速度 会 变 慢 。 由 于 存储 系统 在 生产 
环境 中 运行 ， 所 以 你 对 其 弱点 、 行 为 以 及 故障 状况 的 了 解 会 日 益 加 深 ， 这 类 似 于 数据 基础 
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设施 的 青年 时 期 。 甚 间 你 最 需要 的 是 能 够 了 解 正在 发 生 什 么 。 产 品 越 复杂 ， 其 动态 部 件 就 
越 多 ， 也 就 需要 投入 更 多 精力 开发 工具 来 搞 清楚 状况 。 


还 需要 有 “旋钮 ”来 降级 服务 质量 ， 避 免 服务 彻底 宕 机 ， 比 如 : 


。 将 站 点 标记 为 只 读 ， 

。 禁用 某 个 特性 ; 

。 将 写 请 求 排队 ， 延 后 处 理 ， 
。 将 恶意 者 或 者 特定 端点 拉 进 黑 名 单 。 


人 员 的 需求 相似 ， 但 并 不 完全 相同 。 一 种 常见 的 情况 是 ， 他 们 对 生产 环境 反应 过 度 。 他 们 
对 可 能 出 现 的 问题 没有 清晰 的 认识 ， 所 以 试图 监控 一 切 指标 ， 以 致 草木 皆 兵 。 从 没有 监控 
图 发 展 到 成 百 上 千 的 监控 图 (99% 是 完全 没有 意义 的 ) 很 简单 ， 但 这 并 非 好 事 ， 实 际 上 可 
能 适得其反 。 如 果 这 导致 了 更 多 的 噪声 ， 你 的 人 员 将 无 法 找到 问题 的 根源 ， 而 只 能 跟踪 日 
志文 件 并 猜测 ， 这 与 没有 监控 图 一 样 粳 糕 ， 甚 至 更 粳 糕 。 


这 时 ， 你 会 打 断 他 们 ， 唤 醒 他 们 ， 培 训 他 们 不 要 在 意 收 到 的 警报 或 对 其 采取 行动 ， 这 会 耗 
尽 他 们 的 精力 。 在 早期 阶段 ， 如 果 你 希望 所 有 人 都 随 叫 随 到 ， 就 需要 把 事情 文档 化 。 当 你 
处 于 起 步 阶段 、 随 叫 随 到 、 人 迫使 人 们 走出 舒适 区 时 ， 给 他 们 一 点 帮助 。 编 写 简洁 有 效 的 文 
档 和 流程 。 













































































1.3.4 自我 实现 

就 如 每 个 人 最 好 的 自己 是 独一无二 的 ， 每 个 组 织 实 现 的 存储 层 也 是 独一无二 的 。 适合 
Facebook 的 存储 系统 ， 也 许 并 不 适合 Pinterest 或 GitHub ， 更 不 用 说 小 型 创业 公司 了 。 但 
是 ， 就 像 健 康 、 自 律 的 人 有 自己 的 行为 模式 (他 们 不 会 在 杂货 店 乱 发 脾气 ,保持 健康 饮食 
并 且 锻 炼 身体 ) ， 健 康 、 自 我 实现 的 存储 系统 也 有 类 似 的 范式 。 


在 这 种 情况 下 ， 自 我 实现 意味 着 数据 基础 设施 能 帮助 你 实现 目标 ， 而 且 数据 库 相 关 工 作 
流程 不 会 妨 得 进度 。 相 反 ， 它 们 能 帮助 开发 人 员 完 成 工作 ， 并 帮助 他 们 避免 一 些 错误 。 
常见 的 运 维 痛 点 和 令 人 厌烦 的 故障 应 该 由 系统 自我 修复 ， 系 统 能 保持 健康 状态 ， 而 无 须 
人 工 介 入 。 这 意味 着 有 满足 系统 需求 的 扩容 方案 ， 无 论 是 每 过 几 个 月 就 需要 扩容 10 倍 ， 
还 是 系统 要 稳定 运行 3 年 之 后 才 扩 容 。 显 然 ， 如 果 数 据 库 基础 设施 成 熟 、 可 靠 ， 你 就 可 
以 把 更 多 时 间 花 在 思考 其 他 事情 上 ， 比 如 创造 新 产品 或 者 预料 未 来 的 问题 ， 而 不 是 处 理 当 
前 的 问题 。 















































所 处 的 需求 层级 随 着 时 间 的 推移 上 下 变动 是 正常 的 。 这 些 层 级 作为 框架 ， 主 要 用 于 帮助 思 
考 问 题 的 优先 级 ， 比 如 确保 有 可 用 的 备份 要 比 写 脚本 来 动态 重新 分 片 和 扩容 重要 得 多 。 如 
果 线 上 数据 只 有 一 个 副本 ， 又 或 者 你 不 知道 当主 服务 器 宕 机 时 如 何 进 行 故障 转移 ， 那 么 你 
应 该 停止 手头 工作 ， 优 先 解决 这 个 问题 。 
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1.4 ”小 结 


数据 库 可 靠 性 工程 师 是 从 现 有 的 、 众 所 周知 的 角色 演变 而 来 的 。 重 要 的 是 ， 本 书 给 出 的 框 
染 能 让 我 们 在 纷繁 多 变 的 当今 世界 中 ， 重 新 思考 管理 数据 存储 的 职责 。 后 文 将 详细 探讨 这 


些 职 责 ， 优 先 讨论 运 维 职责 ， 因 为 这 在 数据 库 工程 的 日 常 工作 中 十 分 重要 。 勇 逆 前 行 吧 ， 
无 县 的 工程 师 们 ! 
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第 2 章 


服务 等 级 管理 





要 成 功 地 设计 、 构 建 和 部 署 服务 ， 首 先 需要 了 解 服务 的 预期 目标 。 本 章 介绍 服务 等 级 管理 
的 定义 及 其 内 容 ， 然 后 讨论 如 何 定义 服务 的 预期 目标 ， 以 及 如 何 监控 和 报告 以 确保 服务 符 
合 预期 。 本 章 将 通过 构建 一 系列 健康 的 服务 等 级 需求 来 解释 该 过 程 。 


2.1 为 何 需 要 SLO 


设计 和 构建 的 服务 对 其 运行 时 特征 有 一 系列 要 求 ， 这 通常 称 为 SLA (service-level 
agreement， 服 务 等 级 协议 )。SLA 不 仅 是 需求 列表 ， 还 包含 补救 措施 、 影 响 等 内 容 (这 些 
内 容 超 出 了 本 书 的 范畴 )。 本 书 将 着 重 探讨 SLO (service-level objective， 服 务 等 级 目标 )， 
SLO 是 架构 师 和 运 维 人 员 在 指导 系统 的 设计 和 运 维 时 所 做 的 承诺 。 




















服务 等 级 管理 颇具 难度 ， 一 章 念 难以 尽 述 ， 重 点 是 理解 其 中 的 微妙 之 处 。 下 面 通过 几 个 例 
子 说 明 为 何 这 个 问题 很 难 。 








。 你 可 能 会 说 :“ 我 只 报告 API 成 功 处 理 的 请 求 的 百分比 。” 好 吧 ， 报 告 谁 的 ? API 的 ? 
显然 有 问题 ， 如 果 负 载 均 衡 服 务 宕 机 了 呢 ? 或 者 服务 发 现 系统 探 明 某 个 数据 库 服务 不 可 
用 ， 而 返回 200 错误 呢 ? 

。 也 许 你 会 说 :“ 好 的 ， 我 们 将 采用 第 三 方 端 到 端的 检查 ， 并 计算 正确 读 写 数据 的 请 求 数 
量 ? ”这 很 不 错 ， 端 到 端 检 查 是 更 可 靠 的 报警 方式 ， 但 是 ， 需 要 对 所 有 后 端 服务 都 这 样 
做 吗 ? 

。 你 会 在 SLO 中 考虑 不 那么 重要 的 服务 吗 ? 用 户 可 能 希望 API 服务 的 可 用 性 为 99.95%， 
批 处 理 产 品 的 可 用 性 为 97%， 而 不 是 API 和 批 处 理 产品 的 可 用 性 均 为 99.8%。 





























你 对 客户 端 有 多 大 的 控制 权 ? 如 果 你 的 API 服 务 的 可 用 性 为 98% ,但 客户 端 会 自动 重 试 ， 
并 且 在 3 次 重 试 中 确保 响应 率 达 99.99%， 那 么 用 户 可 能 就 不 会 发 现 问题 。 哪 个 数 才能 
精确 描述 服务 可 用 性 呢 ? 

可 能 你 会 说 “我 只 统计 错误 率 ”， 但 是 ， 如 果 错 误 是 由 用 户 发 送 无 效 或 格式 错误 的 请 求 
而 导致 的 呢 ? 实际 上 ， 你 对 此 束手无策 。 














。 也 许 你 的 服务 可 用 性 达到 了 99.999%， 但 是 在 其 中 15% 的 时 间 ， 响 应 延 时 超过 5 s。 这 








可 接受 吗 ? 根据 用 户 的 行为 ， 这 实际 上 可 能 意味 着 网 站 对 某 些 用 户 请 求 没 有 响应 。 从 技 
术 上 讲 , 你 自己 统计 的 服务 可 用 性 为 99.999% , 但 是 用 户 会 非常 不 满 , 而 且 这 也 无 可 非议 。 
如 果 对 于 98% 的 用 户 而 言 ， 网 站 的 可 用 性 为 99.999% ， 而 对 于 另外 2% 的 用 户 仅 能 提供 
30%~70% 的 可 用 性 呢 ? 这 种 情况 该 如 何 精确 计算 ? 

如 果 一 个 数据 分 片 或 一 个 后 端 服务 宕 机 或 者 变 慢 呢 ? 如 果 升 级 过 程 中 出 现 bug, 导致 2% 
的 数据 丢失 怎么 办 ?如果 经 历 了 一 整 天 的 数据 丢失 ， 但 仅 针对 某 些 表 ， 怎 么 办 ? 如 果 
用 户 从 来 没有 发 现 数据 丢失 (因为 数据 的 自然 属性 )， 但 是 你 报告 说 有 2% 的 数据 丢失 ， 
导致 所 有 人 把 数据 迁移 至 其 他 平台 怎么 办 ? 如 果 这 2%“ 丢 失 的 数据 ”中 实际 上 包含 因 
地 址 重 写 而 找 不 到 的 数据 ， 但 数据 并 未 真 的 丢失 呢 ? 

如 果 有 些 用 户 因为 Wi-Fi 信号 很 差 、 线 缆 老 化 ， 而 只 能 体验 到 95% 的 可 用 性 呢 ? 或 者 
客户 端 到 服务 端的 路 由 配置 很 糟糕 呢 ?” 你 要 为 此 负责 吗 ? 

如 果 用 户 来 自 全 国 不 同 地 区 呢 ? 那 他 们 很 可 能 会 责怪 你 〈 比 如 某 些 网 络 提供 商 的 DNS 
服务 的 UDP 包 超 过 羡 值 一 一 你 可 以 解决 这 个 问题 )。 

如 果 你 得 出 的 可 用 性 是 99.97%， 但 是 每 个 错误 都 会 导致 整个 网 站 无 法 加 载 呢 ?如 果 你 
得 出 的 可 用 性 是 99.92%, 但 是 由 于 一 个 页 面 有 1500 个 组 件 ， 当 某 个 小 组 件 加 载 失 败 时 ， 
用 户 几 乎 不 会 发 现 呢 ? 哪 种 体验 更 好 ? 

统计 实际 的 错误 率 和 按照 时 间 分 片 来 统计 ， 哪 种 方式 更 好 ? 当 错 误 或 超时 请 求 数 超过 某 
个 交 值 就 按照 分 钟 (或 秒 ) 来 统计 ? 













































































5 个 9 

很 多 人 使 用 “ 几 个 9” 这 样 的 简写 方式 来 描述 可 用 性 ， 例 如 系统 可 用 性 为 “5 
个 9” 意 味 着 构建 的 服务 在 99.999% 的 时 间 是 可 用 的 。 同 理 , “3 个 9” 表 示 
可 用 性 为 99.9%。 























这 就 是 为 什么 随 着 时 间 的 推移 ， 设 计 、 管 理 和 调整 SLO 以 及 可 用 性 度量 的 实践 与 其 说 是 计 


算 








可 题 ， 不 如 说 是 社会 科学 问题 。 如 何 计算 一 个 可 用 性 ， 以 准确 反映 用 户 真实 体验 、 建 立 


信任 并 推动 朝 正 确 的 方向 前 进 ? 

从 团队 的 角度 看 ， 无 论 你 们 一 致 认为 重要 的 可 用 性 度量 值 是 什么 ， 在 某 种 程度 上 都 会 成 为 
不 真实 的 数字 ， 即 使 只 是 下 意识 的 。 在 判断 服务 的 可 靠 性 变 高 或 变 低 时 ， 或 者 在 判断 是 否 
需要 把 资源 从 功能 开发 转移 到 可 用 性 〈 反 之 亦 然 ) 时 ， 需 要 关注 这 些 数字 。 
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从 用 户 的 角度 来 说 ， 最 重要 的 是 度量 值 尽 可 能 地 反映 他 们 的 真实 体验 。 如 果 能 计算 每 个 用 
户 或 者 分 片 的 度量 值 ， 并 按照 任意 维度 划分 数据 ， 甚 至 是 像 UUID 这 样 高 基数 的 指标 ， 将 
是 非常 有 用 的 。Facebook 的 Scuba 和 Honeycomb 就 是 这 么 做 的 。 


2.2 ”服务 等 级 指标 


在 评估 SLO 的 需求 时 ， 通 常会 萎 虑 一 组 有 限 的 指标 或 度量 值 ， 我 们 称 其 为 服务 等 级 指标 
(service-level indicator，SLI)， 并 基于 这 些 指标 设 定 需求 。 其 中 ， 我 们 既 会 考虑 理想 参数 ， 
也 会 考虑 实际 的 工作 参数 。 可 以 将 SLO 视 为 一 个 或 一 组 定义 服务 预期 目标 的 指标 ， 这 通常 
是 因为 这 些 指标 之 间 存 在 内 在 联系 。 






































例如 ， 延 时 在 超过 特定 值 后 会 变 成 可 用 性 问题 ， 因 为 系统 实际 上 不 可 用 。 不 考虑 否 吐 量 
的 延 时 很 可 能 不 准确 ， 不 一 定 能 准确 反映 负载 下 系统 的 真实 状况 。 下 面 列举 并 解释 典型 
指标 。 








2.2.1 延 时 

延 时 ， 也 称 “响应 时 间 ”， 是 一 个 基于 时 间 的 度量 ， 表 明 收 到 一 个 请 求 后 需要 多 长 时 间 响 
应 。 最 好 是 测量 端 到 端的 响应 延 时 ， 而 不 是 度量 组 件 之 间 的 延 时 。 这 是 以 用 户 为 中 心 的 设 
计 ， 对 于 任何 拥有 用 户 的 系统 (任何 系统 都 有 用 户 ) 都 至 关 重 要 。 














延 时 和 响应 时 间 的 对 比 

关于 延 时 和 响应 时 间 的 区 别 有 很 多 争论。 一 些 人 认为 延 时 是 指 请 求 到 达 服 务 
所 花 的 时 间 ， 而 响应 时 间 是 指 到 服务 处 理 请 求 所 花 的 时 间 。 在 本 书 中 ， 延 时 
间 从 请 求 发 起 到 响应 数据 总 的 往返 时 间 。 














2.2.2 可 用 性 

通常 用 服务 预期 可 用 的 时 间 比 例 来 表示 可 用 性 。 可 用 性 定义 为 客户 端的 请 求 返回 预期 响应 
的 能 力 。 注 意 ， 这 里 没有 提 到 时 间 ， 这 就 是 为 什么 大 多 数 SLO 中 既 包 含 响应 时 间 ， 也 包含 
可 用 性 。 延 时 超过 特定 值 后 ， 尽 管 请 求 被 完全 处 理 了 ， 但 此 时 的 服务 也 被 视 作 不 可 用 。 可 
用 性 通常 用 百分比 表示 ， 比 如 某 个 时 间 窗 口 下 可 用 性 是 99%。 该 时 间 窗 口 的 所 有 采样 都 会 


被 聚合 。 














2.2.3 ”吞吐 量 
另 一 个 常用 的 SLI 是 吞吐 量 ， 即 一 段 时 间 内 被 成 功 处 理 的 请 求 量 ， 通 常 以 秒 为 单位 进行 测 
量 。 香 吐 量 和 延 时 联 用 会 非常 有 用 。 团 队 必 须 在 最 大 的 吞吐 量 目标 下 测量 延 时 ， 否 则 测量 


没有 意义 。 越 过 临界 点 之 前 ， 延 时 一 直 很 稳定 。 我 们 必须 找到 吞吐 量 目标 下 的 临界 点 。 
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2.2.4 持久 性 


持久 性 特定 于 存储 系统 和 数据 存储 服务 。 它 表示 写 操作 被 成 功 持久 化 到 存储 系统 中 ， 以 便 
在 随后 的 操作 中 获取 。 这 也 可 以 表示 为 一 个 时 间 窗 口 ， 例 如 系统 发 生 故 障 时 ， 不 能 丢失 超 
过 两 秒 的 数据 。 


2.2.5 ”成 本 或 效率 

成 本 或 效率 通常 被 忽略 ， 或 者 在 服务 等 级 的 讨论 中 不 被 提 及 ， 而 是 被 归 和 预算， 并 且 常 常 
没有 得 到 有 效 的 追踪 。 尽 管 如 此 ， 服 务 的 总 体 成 本 仍 是 大 多 数 业 务 的 关键 指标 。 理 想 情 况 
下 ， 应 该 以 每 次 操作 的 成 本 来 表示 ， 例 如 一 次 网 页 浏览 、 一 次 订阅 或 者 购买 。 


组 织 应 该 把 下 列 行为 作为 服务 运 维 的 一 部 分 。 


口 新 服务 
制定 SLO， 这 在 传统 模型 中 可 能 称 为 运 维 等 级 协议 。 














口 新 SLO 
设置 适当 的 监控 ， 以 评估 实际 度量 值 与 目标 度量 值 的 差别 。 


口 现 有 服务 
定期 审查 SLO， 以 验证 制定 的 SLO 是 否 考虑 了 当前 服务 的 重要 性 。 




















口 实现 SLO 
定期 报告 历史 上 的 和 现在 的 测量 指标 ， 以 审视 符合 或 违背 SLO 的 状况 。 





























口 服务 问题 
对 于 影响 服务 等 级 和 当前 状态 的 问题 ， 寻 找 解决 和 修复 方法 。 


mm 一 
2.3 定义 服务 目标 
ee 我 们 称 之 为 以 用 户 为 中 心 的 设计 ， 因 为 我 们 应 该 
根据 用 户 需求 来 定义 需求 。 最 多 只 需要 3 个 指标 ， 更 多 指标 并 不 能 带 来 更 多 价值 。 指 
标 过 多 通 te et ee 














2.3.1 延 时 指标 
延 时 SLO 可 以 表示 为 基于 某 个 指标 的 范围 ， 例 如 延 时 必须 小 于 100 ms ( 当 明确 做 出 假设 
时 ， 这 实际 上 是 0~100 ms 的 范围 )。 延 时 对 于 用 户 体验 来 说 至 关 重要 。 








为 何 延 时 至 关 重 要 

缓慢 的 或 者 间歇 性 缓慢 的 服务 会 比 系统 宕 机 流失 更 多 用 户 。 事 实 上， 速度 相 
当 重 要 。 谷 歌 研究 院 发 现 ， 引 入 100~400 ms 的 延 时 ， 在 4 周 和 6 周 内 的 搜 
索 率 分 别 下 降 0.2% 和 0.6%。Jake Brutlag 的 “Speed Matters” 一 文 谈 到 了 更 
多 细节 。 下 面 列 举 几 个 令 人 吃惊 的 数据 。 

。 亚马逊 : 延 时 每 增加 100 ms， 销 售 额 会 损失 1%。 

。 谷歌: 如 果 页 面 加 载 延 迟 500 ms ， 会 导致 搜索 量 减少 25%。 

。 Facebook: 加 载 页 面 时 间 延 迟 500 ms， 会 导致 网 络 流量 减少 3%。 

。 页面 响应 每 慢 1s， 用 户 满意 度 就 会 下 降 16%。 

















关于 可 用 性 的 SLO 可 以 表示 为 :请求 延 时 必须 少 于 100 ms。 

















如 果 将 下 限 设 为 0， 可 能 会 导致 基 些 功能 异常 。 一 位 性 能 工程 师 花 一 周 时间 将 响应 时 间 缩 
减 到 10 ms， 但 使 用 应 用 的 移动 设备 很 少 有 足够 快 的 网 络 来 享受 优化 带 来 的 效果 。 换 言 之 ， 
这 位 性 能 工程 师 浪费 了 一 周 时 间 。 可 以 将 SLO 迭代 成 : 请 求 延 时 必须 为 25~100 ms。 


接 下 来 思考 如 何 收集 这 些 数据 。 如 果 我 们 正在 查看 日 志 ， 可 能 会 取 1 分钟 的 请 求 并 计算 平 
均 数 。 这 样 做 其 实 是 有 问题 的 ， 因 为 在 大 多 数 分 布 式 网 络 系统 的 延 时 分 布 中 ， 存 在 较 小 比 
例 的 异常 值 ， 但 这 些 异 常 值 可 能 相当 大 。 这 将 扭曲 平均 值 ， 也 会 对 监控 它 的 工程 师 隐藏 完 
整 的 工作 负载 特征 。 换 言 之 ， 聚 合 响应 时 间 是 一 个 有 损 过 程 (lossy process)。 


























事实 上 ， 在 考虑 延 时 的 情况 下 ， 必 须 考虑 延 时 的 分 布 。 延 时 几乎 从 不 遵循 正 态 分 布 、 高 斯 
分 布 或 泊 松 分 布 ， 所 以 平均 值 、 中 位 数 和 标准 偏差 都 无 意义 ， 这 还 算是 最 好 的 结果 ， 更 
糟糕 的 结果 是 误导 他 人 。 更 多 细节 ， 可 以 参考 Tyler Treat 的 文章 “Everything You Know 
About Latency Is Wrong 。 






































为 了 加 深 理 解 ， 可 以 参考 由 Circonus (大 规模 监控 产品 ) 提供 的 图 2-1 和 图 2-2。 这 些 图 用 
于 解释 削 峰 (spike erosion) ， 这 正 是 我 们 正在 讨论 的 现象 。 图 2-1 是 一 个 在 较 大 的 时 间 窗 
口中 计算 平均 值 的 图 ， 这 些 平均 值 展示 了 一 个 月 的 数据 。 





















































2-1: 较 大 时 间 窗 口 的 平均 延 时 
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图 2-2 展示 了 较 小 时 间 窗 口 (4 个 小 时 ) 的 平均 延 时 。 











Original Graph Percentiles 二 至 

















Er 区 


四 lbva2 haproxy: web “FRONTEND “req_tot (on 192.168.13.243, from opsbroker1) 13.6722221374512 13.6722221374513 











图 2-2: 较 小 时 间 窗 口 的 平均 延 时 


即便 使 用 完全 相同 的 数据 集 ， 图 2-1 中 的 平均 值 表明 峰值 在 7.3 左右 ， 而 图 2-2 中 的 峰值 
为 14。 











警惕 存储 平均 值 
记 住 要 存储 实际 值 ， 而 不 是 平均 值 。 如 果 一 个 监控 程序 每 分 钟 计算 平均 值 ， 
而 不 保留 实际 值 的 完整 历史 记录 ， 那 么 你 有 时 需要 使 用 1 分 钟 的 平均 值 计算 
5 分 钟 的 平均 值 。 你 将 无 法 得 到 正确 的 数据 ， 因 为 原来 的 平均 值 是 有 损 的 。 


如 果 把 每 分 钟 的 数据 看 作 一 个 完整 的 数据 集 ， 而 不 是 一 个 平均 数据 集 ， 那 么 可 视 化 异常 值 
的 影响 会 很 有 价值 (事实 上， 我 们 可 能 更 关注 异常 值 )， 这 可 以 通过 多 种 方法 实现 。 可 以 
可 视 化 最 小 值 和 最 大 值 与 平均 值 的 差异 ， 还 可 以 计算 1 分 钟 内 一 定 百分比 的 值 的 平均 值 ， 
以 剔除 异常 值 ， 比 如 最 快 的 99.9%、99% 和 95%。 如 果 对 比 3 个 值 : 100% 平均 值 、 最 小 
值 和 最 大 值 (如 图 2-3 所 示 )， 就 会 直观 地 看 到 异常 值 的 影响 。 
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图 2-3: 延 时 平均 值 (100% 样本 量 ) 、 最 小 值 和 最 大 值 的 对 比 





了 解 了 上 述 知识 后 ， 下 面 考 虑 延 时 SLO。 如 果 每 分 钟 都 取 平 均值 ， 那 么 不 管 SLO 是 什么 ， 
都 不 能 证 明 是 否 实 现 了 目标 ， 因 为 只 是 在 测量 平均 值 。 为 什么 不 让 目标 更 贴近 实际 情况 
呢 ? 可 以 这 样 改 进 SLO 的 定义 : 在 1 分 钟 内 ， 对 于 99% 的 请 求 ， 延 时 必须 为 25~100 ms。 

















为 什么 选择 99% 而 不 是 100% 呢 ?” 延 时 往往 时 多 峰 分 布 。 有 正常 情况 也 有 异常 情况 ， 这 是 
由 复杂 的 分 布 式 系统 中 存在 的 大 量 偶然 性 造成 的 ， 比 如 JVM (Java 虚拟 机 ) 垃圾 收集 、 数 
据 库 落 盘 和 缓存 失效 等 。 因 此 ， 我 们 预 估 有 一 定 比 例 的 异常 值 ， 设 定 SLO 旨 在 识别 可 容忍 
的 异常 值 百分比 。 











下 面 考 虑 负载 。 我 们 讨论 的 是 API 这 类 简单 的 响应 时 间 吗 ? 还 是 测量 页 面 谊 染 ? 页 面 谊 染 
是 一 段 时 间 内 发 生 的 许多 调用 的 综合 。 如 果 要 测量 页 面 泻 染 ， 我 们 可 能 需要 将 初始 啊 应 作 
为 第 一 个 需求 ， 将 最 终 演 染 作为 第 二 个 需求 ， 因 为 二 者 的 间隔 时 间 可 能 很 长 。 





























2.3.2 可 用 性 指标 
如 前 所 述 ， 可 用 性 是 服务 能 够 在 规定 时 间 内 响应 请 求 的 时 间 度 量 ， 通 常用 百分比 表示 。 例 
如 一 个 系统 的 可 用 性 是 99.9%， 可 以 表示 为 : 服务 必须 在 99.9% 的 时 间 内 是 可 用 的 。 


这 人 允许 每 年 有 526 分 钟 的 故障 时 间 ， 相 当 于 近 9 小 时 ! 要 求 非常 宽松 。 你 可 能 会 同 ， 为 什 
么 不 说 100% ?如果 你 是 产品 负责 人 或 销售 人 员 ， 可 能 会 这 样 做 。 人 们 普遍 认为 ，99%、 
99.9% 和 99.99% 之 间 分 别 存在 一 个 数据 量 的 差异 ， 每 一 次 提升 都 会 让 系统 变 得 更 复杂 、 更 
昂贵 ， 也 更 容易 让 工程 师 分 心 。 另 外 ， 如 果 这 是 一 个 通过 互联 网 或 远 距 离 传输 数据 的 应 用 
程序 ， 可 以 预见 传输 介质 将 产生 影响 ， 导 致 系统 的 可 用 性 无 法 达到 99%~99.9%。 





话 虽 如 此 ， 但 一 年 中 526 次 一 分 钟 的 宕 机 ， 与 一 次 526 分 钟 的 宕 机 有 很 大 的 区 别 。 宕 机 时 
间 越 短 ， 大 多 数 用 户 越 不 容易 注意 到 中 断 。 相 比 之 下 ， 如 果 一 些 服 务 中 断 8 小时， 就 会 
引起 新 闻 报 道 、 数 千 条 推 文 的 讨论 ， 导 致 用 户 对 其 失去 信任 。 围 绕 服 务 考虑 以 下 两 点 是 
有 意义 的 : MTBF (mean time between failures， 平 均 故 障 间隔 时 间 ) 和 MTTR (mean time 
to recover， 平 均 恢复 时 间 )。 通 常会 优先 考虑 避免 发 生 故 障 ， 这 意味 着 MTBF 越 长 越 好 。 
MTTR 是 发 生 故障 之 后 恢复 服务 所 需 的 时 间 ， 越 短 越 好 。 


1. 可 用 性 中 的 弹性 与 稳健 性 
过 去 十 年 ， 有 很 多 关于 构建 弹性 系统 的 讨论 。 弹 性 系统 具有 如 下 3 个 特性 。 


由 于 监控 和 自动 故障 修复 能 力 良 好 ， 因 而 MTTR 较 短 。 

由 于 分 布 式 系统 和 元 余 环境 ， 因 而 故障 的 影响 范围 较 小 。 

系统 视 单机 故障 为 正常 场景 ， 并 确保 自动 修复 和 手动 修复 的 方案 拥有 良好 的 文档 记录 、 
经 过 演练 且 融 入 日 常 运 维 中 。 























请 注意 ， 这 里 并 不 关注 消除 故障 。 没 有 故障 的 系统 虽然 稳健 ， 但 会 变 得 脆弱 。 当 故障 发 生 
时 ， 团 队 很 可 能 没有 做 好 准备 ， 故 障 的 影响 范围 可 能 会 扩大 。 此 外 ， 可 靠 但 脆弱 的 系统 可 
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能 会 导致 用 户 期 望 的 可 靠 性 比 SLO 承诺 的 更 高 ， 而 SLO 正 是 为 此 而 设计 的 。 这 意味 着 ， 
即使 没有 违背 SLO， 当 故障 发 生 时 ， 用 户 也 可 能 会 非常 诅 未。 


有 了 这 些 知 识 ， 当 评估 可 用 性 SLO 时 ， 应 该 问 自己 一 些 关 键 问 题 。 


在 故障 期 间 是 否 有 临时 解决 方案 ?能 否 在 降级 模式 (比如 只 读 模式 ) 下 运行 ?可 以 使 用 
缓存 来 提供 数据 吗 (即使 数据 不 是 新 的 ) ? 

如 果 仅 局 限于 一 小 部 分 用 户 ， 是 否 有 不 同 程度 的 容忍 度 ? 

当 故 障 时 间 越 来 越 长 时 ， 用 户 体验 如 何 ? 


一 一 次 失败 的 请 求 ， 
一 30s; 

一 1 分钟， 

一 5 分钟， 

一 1 小 时 或 更 长 时 间 。 





基于 这 些 ， 你 可 能 需要 重新 评估 原来 的 可 用 性 SLO， 方 法 如 下 : 





定义 时 间 间 隔 ; 
定义 故障 最 长 持续 时 间 ， 
在 确定 可 用 性 问题 之 前 ， 定 义 受 影响 用 户 的 比例 。 








之 后 ， 可 以 表达 SLO 如 下 : 


一 周 内 的 可 用 性 为 99.9%，; 
。 单 次 故障 不 超过 10.08 分 钟 ， 
如 果 5% 以 上 的 用 户 受 影响 ， 则 视 为 宕 机 。 


2. 设计 允许 的 宕 机 时 间 

利用 新 的 迭代 ， 可 以 合理 地 设计 流程 ， 例 如 故障 转移 、 数 据 库 锁 和 重启 。 我 们 可 以 进行 深 
动 升级 ， 让 受 影响 的 用 户 不 到 1%。 如 果 这 周 没 有 发 生 宕 机 ， 并 且 构 建 时 间 少 于 10 分 钟 ， 
则 可 以 用 锁 表 的 方式 来 构建 索引 。 通 过 为 允许 的 宕 机 时 间 进 行 设 计 ， 而 不 是 试图 实现 零 宕 
机 时 间 ， 可 以 提高 设计 的 效率 ， 并 且 可 以 为 创新 和 加 快 夫 代 速 度 冒 些 风险 。 






































值得 注意 的 是 ， 即 使 在 当今 世界 ，99.9% 的 可 用 性 也 普遍 存在 ， 有 时 候 服 务 仍然 可 以 安全 
地 忍受 计划 和 管理 范围 内 的 和 宕 机 时 间 。 经 过 沟通 后 可 以 承受 4 个 小 时 的 宕 机 ， 使 用 只 读 选 
项 来 减轻 宕 机 影响 ， 并 将 宕 机 的 影响 控制 在 较 小 的 用 户 比 例 上 ， 这 样 就 不 必 花 费 几 个 小 时 
精心 安排 迁移 ， 因 为 迁移 可 能 会 带 来 数据 损坏 、 隐 私 问 题 等 风险 。 

















考虑 到 这 一 点 之 后 ， 你 可 能 希望 通过 添加 规划 的 宕 机 来 重新 评估 可 用 性 SLO， 以 指导 运 维 
团队 的 工作 。 








可 用 性 SLO 样 例 的 迭代 版 本 如 下 。 


。 一 周 内 的 可 用 性 为 99.9%。 

。 单 次 故障 不 超过 10.08 分 钟 。 

。 如 果 超 过 5% 的 用 户 受 影响 ， 则 视 为 宕 机 。 
允许 每 年 4 小 时 的 宕 机 时 间 ， 如 果 : 
一 至 少 提前 两 周 与 用 户 沟通 ， 

一 每 次 影响 不 超过 10% 的 用 户 。 








2.3.3 ”吞吐 量 指标 

作为 服务 级 别 指标 ， 和 吞吐 量 应 该 列 出 服务 必须 能 够 支持 的 峰值 ， 同 时 保持 与 其 对 应 的 延 时 
和 可 用 性 SLO。 你 可 能 会 说 :“ 莱 恩 和 夏 丽 蒂 ， 为 什么 还 需要 吞吐 量 指标 呢 ? 难道 延 时 和 
可 用 性 还 不 够 吗 ? ”我 们 中 的 一 个 会 这 样 回 答 :“ 无 县 的 新 手 ， 癌 得 好 ! ”然后 她 会 若 有 
所 思 地 吸 起 烟 半 …… 


有 时 可 能 会 出 现 瓶 有 贷 ， 给 否 吐 量 设置 了 上 限 ,但 不 至 于 影响 性 能 或 可 用 性 。 也 许 系统 中 存 
在 锁 ， 限 制 系统 每 秒 50 个 查询 。 这 种 啊 应 可 能 很 快 ， 但 是 如 果 有 1000 人 等 待 运行 该 查 
询 ， 就 有 问题 了 。 因 为 有 时 无 法 测量 端 到 端的 延 时 ， 所 以 否 吐 量 指标 通常 可 以 作为 系统 是 
否 满 足 业 务 需求 的 一 种 额外 验证 。 














当 使 用 平均 值 和 更 粗 粒度 的 样本 时 ， 吞 吐 量 可 能 会 遇 到 类 似 于 延 时 的 可 见 性 问题 ， 监 控 时 
需要 记 住 这 一 点 。 


1. 成 本 /效率 指标 

当 考 虑 系统 成 本 的 有 效 指标 时 ， 最 大 的 变量 是 采用 什么 指标 来 考量 成 本 。 这 实际 上 是 一 个 
业务 决策 ， 但 是 你 应 该 选择 在 服务 中 驱动 价值 的 因素 。 如 果 你 是 在 线 杂 志 之 类 的 内 容 提供 
者 ， 那 么 交付 的 页 面 至 关 重 要 ， 如 果 你 是 软件 即 服务 (SaaS) 平台 提供 商 ， 那 么 服务 订阅 
指标 是 有 意义 的 ， 如 果 你 是 零售 商 ， 则 交易 量 是 合适 的 指标 。 


2. 注意 事项 

数据 库 工程 师 为 什么 需要 知道 这 些 ? 你 管理 的 是 服务 的 一 个 组 件 ， 为 何必 须 关 注 整体 需 
求 ? 在 故障 频 发 的 日 子 里 ， 可 能 已 经 为 你 设 定 了 数据 存储 目标 ， 并 根据 你 实现 该 目标 的 能 
力 进行 评级 。 但 是 ， 作 为 较 大 团队 的 一 员 ， 你 也 有 机 会 影响 服务 的 速度 和 可 用 性 。 






































通过 了 解 整体 SLO， 可 以 为 关注 点 设置 优先 级 。 如 果 延 时 SLO 为 200 ms， 那 么 可 以 假设 
这 200 ms 包含 以 下 内 容 : 
。 DNS 域名 解析 ; 

负载 均衡 ; 





。 重 定向 到 http 服务 器 ， 
。 应 用 程序 代码 ， 
。 应 用 程序 查询 数据 库 ; 
广域网 中 TCP/IP 的 传输 时 间 
从 存储 中 读 取 数据 ， 包 括 固态 硬盘 和 旋转 磁盘 (spinning disk) 。 


因此 ， 如 果 数 据 存储 做 得 很 好 ， 并 且 耗 时 较 短 ， 你 自然 应 该 关注 其 他 方面 。 如 果 发 现 延 时 
SLO 效果 不 佳 ， 并 且 注 意 到 影响 性 能 的 关键 点 所 在 ， 那 么 可 以 在 sprint 上 花 些 时 间 ， 优 化 
影响 较 大 且 容 易 解 决 的 性 能 痛 点 。 

















在 为 新 服务 设 定 SLO 时 ， 有 一 些 额外 的 事情 需要 考量 。 


口 把 握 分 十 
我 们 拥有 度量 值 ， 理 解 事情 的 轻重 缓急 。 但 请 尽量 保持 度量 值 列表 简洁 ， 可 以 在 一 个 页 
面 仪表 板 上 展现 SLO 状态 。 


口 以 用 户 为 中 心 
想 想 用 户 最 关注 什么 。 请 记 住 ， 大 多 数 应 用 程序 服务 关注 延 时 、 吞 吐 量 和 可 用 性 ， 存 储 
服务 还 关注 数据 持久 性 。 





口 SLO 是 一 个 迭代 过 程 
如 果 有 一 个 SLO 审查 流程 ， 就 可 以 随 着 时 间 的 推移 对 其 进行 修改 和 添加 。 早 期 可 能 不 
需要 高 标准 的 SLO， 这 使 得 工程 师 可 以 专注 于 功能 和 改进 。 


使 用 SLO 确定 如 何 设 计 服 务 、 流 程 和 基础 设施 。 


2.4 ”SLO 的 监 挖 和 报告 


既然 已 经 确立 了 SLO， 那 么 相 较 于 理想 目标 ， 监 控 实 际 运行 的 表现 至 关 重 要 。 截 至 目前 ， 
还 没有 开始 讨论 运 维 的 可 见 性 ， 但 在 进入 下 一 个 话题 前 ， 还 有 一 些 关 键 的 事情 需要 讨论 。 


监控 服务 等 级 管理 的 首要 目标 是 ， 及 早 发 现 并 修复 任何 潜在 的 问题 ， 否 则 这 些 问 题 会 使 我 
们 无 法 达成 SLO。 换 言 之 ， 我 们 不 想 依赖 监控 告诉 我 们 当下 正在 违背 SLO。 这 就 如 同 在 皮 
划 艇 比赛 中 不 想 进 入 淇 流 后 才 发 觉 ， 而 是 想 在 平静 水 域 时 就 有 征兆 表明 下 游 有 满 流 。 然 后 
就 可 以 采取 行动 ， 确 保 不 违背 对 自己 和 系统 许 下 的 承诺 。 


在 监控 时 ， 我 们 将 依赖 度量 值 的 自动 收集 和 分 析 。 然 后 将 这 些 数 据 输入 自动 化 决策 软件 进 
行 修复 ,或 者 用 于 向 操作 人 员 (自己 ) 报警 ， 或 者 为 后 续 工 作 创建 工 单 。 此 外 ， 需 要 将 这 
些 数据 可 视 化 以 便 进 行 实时 分 析 ， 可 能 还 需要 为 当前 状态 的 高 级 视图 创建 仪表 板 。 当 讨论 


















































注 1: 敏捷 项 目 管理 方法 Scrum 中 的 一 个 概念 。 一 一 译 者 注 

















监控 的 各 种 指标 时 ， 上 述 情况 都 要 考虑 在 内 。 


换言之 ,假设 服务 每 周 只 允许 宕 机 10.08 分 钟 ， 到 周二 时 ， 由 于 Cassandra 垃圾 收集 器 发 生 
STW (stop the world) ， 导 致 3 天 内 就 已 经 宕 机 了 3 分 钟 ， 负 载 均衡 故障 转移 宕 机 1 分钟。 
至 此 ， 已 经 用 完了 约 40% 的 SLO， 而 这 周 还 有 4 天。 此 时 就 要 考虑 调整 垃圾 回收 机 制 了 。 
当 超过 特定 国 值 比如 30%) 便 报警 ， 并 在 工 单 系统 中 发 送 电 子 邮 件 ， 以 便 数 据 库 可 靠 性 
工程 师 直 接 解 决 该 问题 。 


2.4.1 可 用 性 监控 
下 面 使 用 前 面 定 义 的 可 用 性 SLO。 访 如何 监控 这 个 指标 呢 ? 我 们 需要 监控 系统 的 可 用 性 以 及 
用 户 级 别 的 错误 ， 并 基于 此 得 到 合适 的 监控 图 。 重 申 一 下 ， 所 举 示例 的 可 用 性 SLO 如 下 。 


。 一 周 内 的 可 用 性 为 99.9%。 

。 单 次 故障 不 超过 10.08 分 钟 。 
如 果 超 过 5% 的 用 户 受 影响 ， 则 视 为 宕 机 。 
允许 每 年 4 小 时 的 宕 机 时 间 ， 如 果 : 
一 至 少 提前 两 周 与 用 户 沟 通 ， 
一 每 次 影响 不 超过 10% 的 用 户 。 
































习惯 上 ， 运 维 人 员 倾 向 于 关注 底层 的 监控 ， 以 便 了 解 系统 是 否 可 用 。 例 如 ， 他 们 可 能 会 监 
测 主机 是 否 已 启动 、 是 否 可 达 ， 以 及 其 上 的 服务 是 否 正 在 运行 并 可 访问 。 在 分 布 式 系统 
中 ， 很 快 就 会 发 现 这 种 做 法 是 不 可 持续 的 ， 也 不 能 很 好 地 预示 服务 的 可 用 性 。 假 如 有 1000 
个 JVM、20 个 数据 库 实 例 和 50 个 Web 服务 ， 我 们 怎样 才能 得 知 ， 其 中 是 否 有 某 个 组 件 正 
在 影响 服务 可 用 性 ， 以 及 影响 程度 如 何 ? 








关于 此 ， 首 先 要 关注 用 户 请 求 的 错误 率 ， 也 称 RUM (real user monitoring， 真 实用 户 监 
控 )。 例 如 ， 当 用 户 从 六 览 器 提交 HTTP 请 求 时 ， 他 能 否 收 到 服务 器 的 正确 响应 ? 如 果 服 
务 很 受 欢 迎 ， 可 能 还 会 产生 大 量 数据 。 一 个 重大 的 全 球 性 新 闻 事 件 ， 会 在 Web 服务 上 产生 
每 秒 7 万 多 次 的 点 击 。 任 何 现代 CPU 都 可 以 高 效 地 计算 此 量 级 数据 的 错误 率 。 这 些 数据 
从 应 用 程序 (比如 Apache HTTP) 记录 到 一 个 日 志 守 护 进程 (比如 Linux syslog)。 











系统 从 这 些 日 志 中 获取 数据 并 输出 到 适当 的 工具 进行 监视 和 分 析 的 方式 千差万别 。 本 书 暂 不 
讨论 这 一 点 ， 并 假设 我 们 已 将 服务 的 成 功 / 错误 数据 存储 在 生产 数据 库 中 ， 而 且 没 有 进行 任 
何 聚合 或 平均 。 前 文 已 有 论述 ， 但 值得 再 次 强调 的 是 ， 只 存储 平均 值 会 丢失 有 价值 的 数据 。 
有 了 这 些 数据 后 ， 计 算 每 秒 的 请 求 失败 是 否 超过 1% 就 很 简单 了 。 如 果 超 过 了 ， 就 将 这 一 
秒 标记 为 宕 机 时 间 。 按 这 种 方法 计算 出 总 的 宕 机 时 间 ， 并 与 一 周 所 允许 的 604.8 s 宕 机 时 间 
做 比较 ， 然 后 将 结果 生成 报告 在 仪表 盘 上 展示 ， 以 便 通 过 浏览 器 查看 ， 或 在 网 络 操作 中 心 


















































国家 一 般 将 周 日 作为 一 周 的 第 一 天 。 一 一 编者 注 
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注 2: 西 




















或 办 公 室 的 监控 器 上 以 及 任何 有 助 于 利益 相关 者 了 解 团队 情况 的 地 方 展 示 。 


理想 情况 下 ， 我 们 能 利用 这 些 数据 ， 预 测 宕 机 时 间 是 否 会 超过 当 周 预算 。 在 大 部 分 环境 
中 ， 预 测 面临 的 最 大 挑战 是 由 于 产品 演进 而 导致 的 负载 转移 。 在 每 周 甚至 每 天 发 布 版 本 的 
系统 中 ， 以 前 任何 数据 集 的 作用 都 非常 有 限 。 与 最 近 的 数据 集 相 比 ， 旧 数据 集 尤 其 如 此 。 
这 称 为 衰减 函数 (decaying function)。 


本 书 无 意 探讨 可 预测 性 数据 科学 ， 但 有 很 多 方法 可 用 于 预测 当 周 或 者 未 来 几 周 是 否 会 违背 
SLO。 可 以 采用 宕 机 时 间 不 超过 当前 值 的 前 入 周 (在 相对 稳定 的 环境 中 N 较 大 ， 在 频繁 部 
署 的 系统 中 可 能 小 到 1) 的 数据 ， 分 析 这 X 周 中 违背 SLO 的 次 数 ， 并 基于 此 来 预测 。 


例如 ， 你 的 脚本 记录 了 本 周 当前 的 宕 机 时 间 (10 s) 和 本 周 当 前 的 总 秒 数 。 该 宕 机 可 以 定 
义 为 : 在 本 周 369 126 s 内 ， 总 的 宕 机 时 间 为 10 s。 


然后 可 以 计算 前 13 周 的 数据 ， 对 于 每 个 在 相同 时 间 点 (1~369 126 s) 宕 机 时 间 不 超过 10 s 
的 周 ， 计 算 该 周 是 否 违背 了 SLO。 接 着 基于 时 间接 近 程 度 赋予 不 同 的 权重 。 比 如 在 这 13 
周 中 ， 给 紧邻 当前 时 间 的 前 一 周 赋予 权重 13 ， 再 前 一 周 赋予 权重 12， 以 此 类 推 。 对 违背 
SLO 的 那些 周 进行 加 权 求 和 ， 如 果 这 个 值 大 于 等 于 13， 就 有 必要 给 运 维 团队 提 工 单 ， 并 
及 时 通知 他 们 处 理 。 如 果 疫 有 训练 有 素 的 数据 科学 家 来 审查 服务 等 级 数据 ， 这 是 确保 有 某 
种 级 别 的 数据 驱动 监控 的 一 种 方法 。 这 里 的 目标 是 ， 在 潜在 问题 演变 为 紧急 事件 之 前 发 现 
它 ， 这 意味 着 更 少 地 打扰 值班 人 员 和 减轻 对 可 用 性 的 影响 。 


除了 RUM， 人 工 创建 测试 数据 集 也 是 有 用 的 ， 这 称 为 合成 监控 (synthetic monitoring)。 数 
据 集 是 人 工 创建 的 ， 并 不 意味 着 其 行为 和 真实 用 户 不 同 ， 就 像 邮 件 企 业 也 会 像 一 般 用 户 一 
样 从 QA 账号 发 邮件 。 





























合成 监控 可 实现 持续 、 完 整 的 覆盖 。 用 户 可 能 来 自 不 同 区域 ， 活 跃 时 间 也 不 尽 相 同 。 如 果 
不 对 服务 的 所 有 区 域 和 活动 都 实施 监控 ， 就 会 存在 盲点 。 利 用 合成 监控 ， 可 以 识别 哪些 区 
域 的 可 用 性 或 延 时 变 得 不 稳定 或 恶化 了 ， 并 做 好 准备 或 采取 缓解 措施 ， 例 如 扩容 、 性 能 调 
优 ， 甚 至 将 流量 从 不 稳定 区 域 迁 移 走 。 


有 了 合成 监控 和 RUM， 就 能 知道 何 时 可 用 性 受到 影响 ， 其 至 预测 何 时 可 能 会 违背 SLO。 
但 对 于 更 大 的 故障 ， 比 如 系统 发 生 故 障 或 者 容量 达到 上 限 等 情况 ， 这 些 监控 帮助 不 大 。 而 
实施 稳健 性 监控 的 一 个 重要 原因 ， 就 是 在 发 现 系统 发 生 故 障 和 过 载 之 前 ， 收 集 足 够 多 的 数 
据 来 进行 预测 。 























2.4.2 延 时 监控 
延 时 监控 和 请 求 错误 监控 非常 相似 ， 只 不 过 可 用 性 是 布尔 值 ， 而 延 时 是 时 间 值 ， 必 须 测量 
并 验证 它 是 否 在 目标 SLO 范围 内 。 








延 时 SLO 
1 分钟 内 ，99% 请 求 的 延 时 必须 为 25~100 ms。 





在 我 们 的 错误 监控 中 ， 假 设 所 有 HTTP 请 求 的 日 志 都 已 经 从 syslog 存 入 时 序数 据 库 中 了 。 
有 了 这 些 数据 ， 就 可 以 对 一 定时 间 间 隔 内 的 请 求 按 延 时 进行 排序 ， 并 上 剔除 延 时 最 高 的 1% 
的 请 求 。 在 本 例 中 ， 对 1 s 内 的 请 求 的 延迟 取 平 均值 。 如 果 剩 余 的 99% 的 请 求 中 ， 有 任何 
一 个 请 求 的 延 时 超过 100 ms， 就 算 违 背 了 一 次 SLO。 








有 很 多 工具 或 脚本 可 以 利用 这 类 数据 进行 预测 性 分 析 。 通 过 测算 以 往 在 相似 时 间 内 或 具有 
相似 流量 模式 的 延 时 数据 ， 可 以 寻找 表征 响应 时 间 变 长 可 能 导致 违背 SLO 的 异常 现象 。 


2.4.3 ”吞吐 量 监控 

前 面 收集 并 检查 了 可 用 性 和 延 时 SLO 的 数据 ， 有 了 这 些 数 据 ， 很 容易 监控 吞吐 量 。 如 果 存 
储 了 每 条 记录 ， 就 可 以 轻松 计算 出 每 秒 的 事务 数量 。 如 果 该 值 超 过 了 SLO 要 求 的 最 小 事务 
数量 ， 就 表明 没 问题 。 如 果 服 务 的 实际 流量 达 不 到 SLO 的 吞吐 量 ， 则 需要 定期 做 负载 训 
试 ， 以 确保 系统 能 满足 SLO 的 要 求 。 稍 后 会 详细 介绍 负载 测试 。 


2.4.4 监控 成 本 和 效率 

成 本 和 效率 是 很 难 监控 的 SLO， 因 为 有 些 成 本 无 法 量化 ， 为 此 必须 考虑 一 段 时间 内 的 总 成 
本 。 如 果 你 的 服务 在 云 环境 中 运行 ， 则 所 用 资源 的 费用 已 经 明确 ， 很 容易 量化 所 用 资源 的 成 
本 ， 例 如 存储 、 计 算 、 内 存 和 带宽 等 。 如 果 使 用 的 是 自己 的 裸 机 ， 则 需要 计算 所 有 用 于 服务 
的 硬件 成 本 ， 并 估算 共享 资源 的 使 用 成 本 。 此 外 ， 成 本 计算 周期 并 不 是 细 粒 度 的 ， 所 以 如 果 
供应 商 出 有 具 的 是 月 度 报 告 ， 那 么 了 解 某 个 时 间 段 的 费用 就 不 大 容易 ， 比 如 按 小 时 计算 。 


对 于 成 本 固定 的 资源 ， 比 如 主机 和 存储 资源 ， 可 以 从 供应 商 或 者 自己 的 内 部 数据 库 中 获取 
最 新 数据 。 在 部 署 或 下 架 资 源 时 ， 可 以 参考 这 类 数据 来 评估 成 本 。 对 于 带宽 、IOPS 等 用 
量 类 型 的 资源 ， 可 以 有 计划 地 参考 其 他 已 收集 的 度量 值 ， 以 评估 费用 。 


也 要 考虑 维护 服务 的 人 员 成 本 ， 包 括 运 维 人 员 、 数 据 库 管理 员 和 网 络 工 程 师 ， 以 及 任何 待命 
人 员 ， 还 包括 项 目 管理 人 员 。 这 类 共享 资源 ， 可 以 按 其 投入 到 监控 服务 中 的 时 间 百 分 比 来 计 
算 。 如 果 组 织 正在 使 用 时 间 追 踪 工 具 ， 那 么 可 以 基于 这 些 数 据 生 成 实时 人 力 资源 的 使 用 情况 
数据 ， 否 则 需要 做 常规 的 估算 ,将 人 员 离 职 、 新 入 职 、 团 队 调整 等 因素 都 考虑 在 内 。 
















































































这 些 工作 都 需要 人 工 完成 ， 其 中 一 些 无 法 简单 地 自动 化 。 尽 管 如 此 ， 这 些 数据 对 于 评估 运 
维 成 本 是 非常 有 价值 的 。 将 该 成 本 和 服务 产生 的 价值 对 比 ， 有 助 于 可 靠 性 工程 师 在 提升 效 
率 方面 树立 目标 。 
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2.5 ”小结 


服务 等 级 管理 是 架构 设计 和 运 维 的 基石 。 所 有 事情 都 围绕 不 违背 SLO 这 件 事 开展 ， 这 怎么 
强调 都 不 为 过 。SLO 确立 了 行事 的 基本 准则 ， 我 们 基于 SLO 决定 哪些 风险 是 可 以 承担 的 、 
应 该 选择 哪 种 架构 ， 以 及 如 何 设计 操作 流程 以 支撑 该 架构 。 











本 章 介 绍 了 服务 等 级 管理 的 核心 概念 (包括 SLA、SLO、SLI 等 ) 和 常用 指标 (包括 可 用 
性 、 延 时 、 稳 定性 和 有 效 性 )， 以 及 有 效 监 控 这 些 指标 以 便 在 违背 SLO 之 前 发 现 问题 的 方 
法 。 这 将 为 你 提供 一 个 良好 的 基础 ， 以 便 有 效 地 沟通 对 你 管理 的 服务 的 期 望 ， 并 为 实现 这 
些 目标 做 出 贡献 。 


























第 3 章 将 讨论 风险 管理 ， 届 时 将 评估 影响 承诺 的 服务 等 级 的 因素 。 基 于 服务 等 级 需求 和 识 
别 出 的 潜在 风险 ， 可 以 有 效 地 设计 服务 架构 和 操作 流程 ， 以 确保 名 现 业 务 承 诺 。 








运 维 操作 是 一 系列 承诺 ， 以 及 为 部 现 这 些 承诺 所 要 完成 的 工作 。 第 2 章 讨论 了 如 何 确立 运 


维 目标 ， 以 及 如 何 对 该 目标 进行 监控 和 报告 。 风 险 管理 








就 是 对 会 造成 违背 承诺 的 不 确定 性 


进行 识别 、 评 估 并 划分 优先 级 ， 也 就 是 利用 资源 (包括 技术 、 工 具 、 人 员 、 流 程 ) 来 监控 
并 降低 不 确定 性 。 


风险 管理 并 不 是 一 门 追 求 完美 的 科学 ， 它 的 目标 不 是 消除 所 有 风险 ， 因 为 消除 所 有 风险 不 
切实 际 ， 无 疑 会 浪费 资源 。 风 险 管 
运用 缓解 和 预防 技术 ， 通 过 不 断 迭 代 减 轻 风险 造成 的 影响 。 这 个 过 程 应 该 是 持续 的 ， 随 





着 对 事故 的 分 析 、 新 架构 组 从 





可 分 为 以 下 7 步 。 


。 识别 可 能 给 服务 带 来 运 维 风险 的 危险 或 威胁 。 





理 的 目标 是 将 评估 和 降低 风险 的 措施 纳入 所 有 流程 ， 并 


。 评估 每 个 风险 并 分 析 其 可 能 性 和 影响 。 
。 对 风险 的 可 能 性 和 影响 进行 分 类 。 


。 确定 减轻 后 果 或 降低 风险 可 能 性 的 控制 措施 。 


。 评估 风险 优先 级 ， 确 定 优先 处 更 
实施 控制 措施 并 监控 其 有 效 性 。 
不 断 重复 上 述 过 程 。 


哪个 。 

















F 的 引入 以 及 组 织 发 展 伴随 的 风险 而 变化 。 流 程 的 循环 过 程 


重复 上 述 过 程 ， 便 是 实践 持续 改善 (Kaizen)， 也 称 “持续 改进 ”"。 该 过 程 在 风险 评估 中 尤 


为 重要 ， 
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大 








此 必须 逐步 制定 策略 。 


3.1 风险 考量 因素 
影响 风险 评估 流程 质量 的 因素 很 多 ， 可 分 为 如 下 几 类 ; 


。 未 知 因素 和 复杂 性 ; 
。 可 用 资源 ; 
。 人 的 素 ; 

团队 因素 。 


我 们 需要 考虑 所 有 这 些 因素 ， 以 帮助 团队 确立 一 个 切实 可 行 的 流程 ， 下 面 简要 介绍 这 些 内 容 。 


3.1.1 未 知 因素 和 复杂 性 

当今 系统 复杂 度 大 幅 增 加 ， 使 得 风险 评估 过 程 面临 更 为 严峻 的 挑战 。 领 域 知 识 越 复 杂 难 
懂 ， 人 们 将 已 有 知识 应 用 于 陌生 场景 的 难度 就 越 大 。 过 度 简化 概念 以 便 理解 被 称 为 简化 偏 
好 (reductive bias)。 这 种 方法 在 最 初 的 学 习 中 是 有 效 的 ， 但 对 于 获取 更 高 阶 的 知识 无 效 。 
系统 中 存在 大 量 未知 风 险 ， 其 中 很 多 是 我 们 无 法 控制 的 ， 例 如 : 


。 在 托管 环境 (比如 亚马逊 或 谷歌 的 云 服 务 ) 中 ,来自 其 他 用 户 的 影响 ， 
。 集成 到 基础 设施 中 的 第 三 方 组 件 的 影响 ; 

。 软件 工程 师 提 交 的 代码 ， 

。 促销 活动 导致 的 流量 激增 ， 

。 上 下 游 服 务 ， 

。 补丁 、 代 码 库 变 更 ， 以 及 其 他 软件 增 量变 更 。 
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为 了 评估 此 类 环境 中 的 风险 ， 领 域 问 题 的 解决 有 助 于 评估 过 程 。 运 维 团队 必须 利用 不 断 积 
累 的 经 验 和 知识 来 构建 更 完善 的 规划 模型 ， 同 时 需要 认识 到 ， 无 法 考虑 到 所 有 可 能 性 ， 因 
此 必须 创建 弹性 系统 ， 来 为 未 知 的 可 能 性 做 好 准备 。 


3.1.2 ”可 用 资源 

如 果 你 在 资源 匮乏 的 部 门 或 杂乱 无 章 的 初创 公司 工作 过 ， 就 会 知道 ， 为 正在 进行 的 或 有 前 
瞻 性 的 流程 申请 资源 非常 困难 。 你 可 能 每 月 只 有 4 小 时 其 至 30 分 钟 的 时 间 来 访问 风险 管 
理 流 程 。 因 此 ， 你 必须 创造 价值 。 你 用 于 消减 风险 的 时 间 和 资源 成 本 必须 少 于 不 作为 的 成 
本 。 换 言 之 ， 要 不 断 地 划分 优先 级 ， 在 有 限 的 时 间 内 优先 处 理 最 有 可 能 和 会 产生 最 大 影响 
的 风险 。 创 建 弹 性 系统 并 从 事故 中 学 习 。 


3.1.3 人 的 因素 
人 们 做 事情 时 会 有 很 多 潜在 问题 。 人 类 是 陪 蔗 的 ， 但 不 是 完美 的 。 会 对 风险 管理 流程 产生 
危害 的 例子 如 下 。 















































口 


口 


不 作为 综合 征 
很 多 运 维 人 员 发 现 ， 自 己 的 上 级 或 者 同事 厌恶 风险 。 他 们 的 特点 是 选择 不 作为 ， 因 为 他 们 
认为 变更 比 不 作为 风险 更 高 。 在 面 对 未 知情 况 时 ， 仔 细 其 酌 很 重要 ， 但 不 应 退缩 不 作为 。 





























对 熟悉 的 危害 视而不见 
有 经 验 的 工程 师 经 常会 忽视 常见 风险 ， 更 关注 新 出 现 的 或 者 少见 的 事件 。 比 如 经 常 处 理 
磁盘 写 满 问题 的 人 ， 可 能 更 关注 数据 中 心 的 事件 ， 而 没有 为 磁盘 空间 管理 做 足 准备 。 











恐惧 

瓯 惧 可 以 被 视 为 积极 的 或 消极 的 压力 ， 因 人 而 异 。 有 些 人 能 在 高 压力 、 高 风险 的 环境 中 
昔 壮 成 长 ， 并 能 给 计划 、 风 险 消 减 和 生产 工作 创造 巨大 价值 ， 而 有 些 人 则 会 因为 念 悍 而 
忽略 最 糟糕 的 情况 ， 这 可 能 导致 对 关键 的 高 风险 的 组 件 和 系统 缺乏 准备 。 在 团队 中 注意 
这 些 反 应 很 重要 。 











过 于 乐观 

在 风险 评估 时 ， 另 一 个 倾 癌 是 过 于 乐观 。 我 们 经 常 高 估 自 己 以 及 团队 的 能 力 ， 这 会 让 我 
们 只 考虑 事物 的 理想 情况 (比如 不 会 疲劳 ， 没 有 其 他 事故 分 散 精 力 ， 可 以 指挥 下 属 )。 
这 种 乐观 不 止 体现 在 人 员 评 估 上 ， 也 体现 在 对 事情 的 评 佑 上。 你 是 否 曾 认为 ,“3 块 磁 
盘 在 同一 天 发 生 故 障 是 不 可 能 的 ”， 结 果 却 经 历 了 一 批 磁 盘 损 坏 的 窘境 ? 























此 外 ， 必 须 考虑 造成 风险 的 身体 因素 ， 比 如 疲劳 ， 并 将 其 视 为 手动 修复 (也 称 “ 救 火 ”) 
时 的 阻碍 。 任 何 时 候 ， 当 我 们 考虑 人 工 工作 及 其 固有 的 风险 时 ， 比 如 和 手动 变更 和 验证 ， 需 
要 假设 运 维和 人 员 刚 完成 了 一 整 天 的 工作 。 可 能 情况 并 非 如 此 ， 但 必须 考虑 到 这 样 的 问题 。 
此 外 ， 当 我 们 为 降低 或 者 消除 风险 而 做 风险 控制 设计 时 ， 必 须 考虑 到 人 负责 手动 修复 的 人 会 
疲劳 ， 或 者 可 能 同时 在 处 理 多 个 问题 。 

















报警 疲劳 

报警 疲劳 (pager fatigue) 是 由 不 必要 或 者 大 量 的 报警 导致 的 疲劳 感 和 不 堪 重 
负 。 当 决定 在 监控 流程 中 内 置 多 少 报警 〈 需 要 人 工 介入 和 修复 的 报警 ) 时 ， 
应 该 考虑 到 这 一 点 。 这 通常 是 由 于 误 报 〈 多 因 阔 值 设 置 不 合理 ， 对 非 问 题 也 
报警 ) ， 或 者 对 不 久之 后 可 能 会 有 风险 的 事情 采用 了 报警 (alert) 而 非 警告 
(warning) 所 造成 的 。 



































3.1.4 团队 因素 

如 同 个 人 有 盲点 ， 团 队 也 会 动态 变化 ， 这 可 能 会 影响 风险 管理 流程 。 关 于 团队 因素 ， 需 要 
芳 虐 以 下 几 点 。 

口 团队 极 化 


也 称 “冒险 转移 ”(risky shift)。 团 队 极 化 产生 的 原因 是 ， 相 比 团队 中 的 个 人 ， 团 队 倾 向 
于 做 出 更 极端 的 决定 。 这 种 倾向 往往 使 得 团队 与 最 初 的 想法 渐 行 浙 远 。 如 果 个 人 观点 偏 
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， 他 们 对 风险 的 容忍 度 会 上 升 ， 反之 ， 风 险 容 忍 会 变 为 风险 
往 不 想 表 现 得 太保 守 ， 这 种 想法 会 导致 团队 对 风险 的 容忍 度 








保守 ， 在 达成 一 致意 见 后 
规避 。 在 团队 中 ， 个 人 往 
升 高 。 


口 风险 转移 
当 有 其 他 团队 分 担 风 险 时 ， 团 队 的 风险 容忍 度 往 往 会 提升 。 比 如 ， 我 正在 为 运 维 团 队 做 
计划 ， 如 果 知 道 可 以 向 数据 库 团 队 求助 ， 我 可 能 会 冒 更 大 的 风险 。 树 立 主 人 兮 意识 ，3 
在 不 能 将 风险 转移 给 他 人 的 跨 职能 团队 中 工作 ， 有 助 于 实现 这 一 目标 。 


口 决策 转移 
当 团队 高 估 风 险 时 ， 可 能 会 发 生 决策 转移 ， 这 样 他 们 就 可 以 将 特定 决策 的 责任 转移 给 别 
人 。 如 果 高 风险 的 变更 需要 首席 技术 官 批准 ， 并 且 需 要 承担 责任 ， 人 们 就 会 把 风险 评估 
得 高 一 些 ， 以 便 将 决策 推 给 他 人 来 做 。 在 依赖 团队 和 个 人 的 专业 知识 和 经 验 而 不 是 等 级 
审批 流程 的 自治 团队 中 ， 这 种 现象 会 减少 。 


3.2 可 以 做 什么 


现状 是 ， 风 险 管理 流程 容易 变 得 过 于 繁重 。 即 使 有 充足 的 资源 ， 团 队 也 无 法 识别 影响 可 用 
性 、 性 能 、 稳 定性 和 安全 性 的 所 有 潜在 风险 。 对 于 我 们 来 涪 ， 创 建 随时 间 迭 代 和 改进 的 流 
程 是 有 意义 的 。 在 处 理 风险 时 要 力求 保持 弹性 ， 而 不 是 试图 消除 所 有 风险 ， 并 允许 为 了 创 
新 和 改进 而 明智 地 承担 风险 。 


消除 所 有 风险 实际 上 是 糟糕 的 目标 。 疫 有 压力 的 系统 ， 不 会 随 着 时 间 的 推移 得 到 加 固 和 强 
化 。 在 面 对 突 如 其 来 的 压力 时 ， 这 些 系统 往往 会 变 得 很 脆弱 。 那 些 经 常 面 对 压力 ， 因 而 设 
计 得 更 有 弹性 的 系统 ， 在 面 对 未 知 风险 时 能 更 好 地 应 对 。 

对 于 是 否 应 该 利用 宕 机 预算 (谷歌 创造 的 词 )， 目 前 尚 无 定论 。 谷 歌 的 选择 是 承担 可 控 范 
围 内 的 风险 ， 把 风险 看 作 获 得 更 多 收益 的 机 会 。 在 谷歌 ， 如 果 每 个 季度 有 30 分 钟 宕 机 预 
算 ， 且 这 些 时 间 尚 未 使 用 ， 则 它 愿意 承担 更 大 的 风险 ， 以 换取 发 布 、 改 进 和 增强 新 功能 等 
所 带 来 的 收益 。 这 是 充分 利用 预算 来 创新 的 做 法 ， 而 不 是 完全 规避 风险 。 


如 何 将 其 转化 为 现实 世界 中 评估 风险 的 流程 呢 ? 首 先 看 看 不 可 以 做 什么 。 


3.3 不 可 以 做 什么 


介绍 完 需要 牢记 的 要 点 ， 下 面 是 深入 研究 风险 管理 流程 时 需要 考虑 的 最 后 一 些 建议 。 






























































































































































不 要 让 主观 偏见 妨碍 流程 。 
不 要 把 偶然 事件 或 者 片面 言语 当 作 主 要 的 风险 评估 来 源 。 
不 要 只 关注 以 往 的 事故 和 问题 ， 要 朝 前 看 。 

















不 要 止步 不 前 ， 要 不 断 回 顾 、 总 结 以 往 工 作 。 
不 要 忽略 人 的 因素 。 

不 要 忽略 架构 和 工作 流 的 演进 。 

不 要 假设 环境 和 以 前 一 样 。 

不 要 采用 脆弱 的 管控 措施 ， 或 忽略 最 坏 的 情况 。 


随 着 时 间 的 推移 ， 你 会 往 列表 中 添加 更 多 内 容 ， 但 切记 ， 它 们 对 于 思 萎 系统 可 能 过 到 的 陷 
阱 是 有 帮助 的 。 


3.4 工作 流程 : 初始 版 本 

无 论 对 于 新 服务 还 是 已 有 服务 ， 我 们 的 流程 都 从 初始 版 本 开始 。 在 初始 版 本 ( 见 图 3-1) 
中 ， 目 标 是 识别 出 会 影响 服务 SLO 或 很 可 能 发 生 的 主要 风险 。 另 外 ， 还 应 考虑 可 能 危害 服 
务 长 期 可 行 性 的 精 粒 场景。 数据 库 工程 师 需 要 记 住 ， 这 样 做 不 是 为 了 获知 风险 的 全 有 狐 ， 真 
正 的 目标 是 降低 或 消除 风险 ， 以 及 计划 如 何 从 运 维 的 角度 最 大 限度 地 利用 现 有 资源 。 

















初始 版 本 


服务 风险 评估 


架构 清单 


风险 优先 级 


风险 控制 和 决策 制定 














图 3-1: 风险 管理 流程 的 初始 版 本 





3.4.1 服务 风险 评估 
如 果 你 正在 维护 一 组 服务 和 微服 务 ， 那 么 应 该 和 产品 负责 人 一 起 评估 每 项 服务 的 风险 容忍 
度 。 你 应 该 问 以 下 问题 。 





如 何 定义 服务 的 可 用 性 和 延 时 SLO ? 
当 出 现下 列 情况 时 ， 宕 机 或 者 不 可 接受 的 延 时 是 什么 样 的 ? 
一 影响 了 所 有 用 户 
一 影响 了 部 分 用 户 
一 服务 以 降级 模式 〈 只 读 模 式 、 关 闭 某 些 功 能 等 ) 运行 
一 服务 的 性 能 下 降 了 
。 服务 宕 机 的 代价 是 什么 ? 
一 收益 损失 ? 
一 用 户 流失 ? 
4 服务 是 免费 还 是 付费 的 ? 
4 有 用 户 可 以 轻易 迁移 过 去 的 竞 品 吗 ? 
一 宪 机 的 影响 会 危害 整个 公司 吗 ? 
4 数据 会 丢失 吗 ? 
会 泄露 隐私 吗 ? 
是 在 举行 活动 或 节假日 期 间 宕 机 的 吗 ? 
宕 机 影响 扩大 了 吗 ? 








令 人 多 


看 一 个 例子 ，UberPony 是 一 家 提供 骑马 服务 的 公司 ， 涉 及 以 下 6 项 服务 。 


新 用 户 注册 。 
按 需 骑马 ， 订 单 / 履约 。 
驯 马 师 注册 。 

驯 马 师 后 勤 。 

驯 马 师 薪酬 。 

内 部 分 析 。 


考虑 新 用 户 注 册 和 订单 / 履约 两 个 服务 ， 见 表 3-1 和 表 3-2。 





SN 
二 





表 3-1: UberPony 用 户 注册 服务 























可 用 性 SLO 99.9% 

延 时 SLO ls 

每 日 新 增 用 户 5000 

SLO 允许 的 错误 数 5 

每 天 的 基础 设施 成 本 13 698 美元 
1 美元 收入 对 应 的 基础 设施 成 本 0.003 美元 








永久 会 员 价值 

永久 会 员 带 来 的 每 日 收入 
每 分 钟 用 户 峰值 

出 错 后 的 用 户 退 出 率 

每 分 钟 收入 损失 峰值 


表 3-2: UberPony 订 单 /履约 服务 


可 用 性 SLO 

延 时 SLO 

当前 每 日 订单 数 
SLO 允许 的 错误 数 
每 天 的 基础 设施 成 本 
1 美元 收入 对 应 的 基础 设施 成 本 
每 单 收益 

每 日 收益 

每 分 钟 下 单 峰值 
出 错 后 的 订单 取消 率 
出 错 后 的 用 户 流 失 率 
每 分 钟 收入 损失 峰值 
每 分 钟 用 户 价值 损失 
每 分 钟 总 损失 















































( 续 ) 
1000 美元 
500 万 美元 
100 
60% 
6 万 美元 


99.9% 
ls 

50 万 

500 

3 万 美元 
0.006 美元 
10 美元 
500 万 美元 
1000 

25% 

1% 

2500 美元 

1 万 美元 
1.25 万 美元 


表 3-1 和 表 3-2 显示 ， 用 户 注 册 服 务 的 成 本 是 下 单 / 履约 服务 的 4.8 倍 。75% 的 用 户 会 重 试 


下 单 ， 但 是 在 无 法 注册 时 ， 只 有 40% 的 顾客 会 上 
公司 的 服务 。 在 本 例 中 ， 我 们 尝试 考虑 了 一 些 攻 


























了 次 光顾 。 显 然 ， 他 们 愿意 尝试 UberDonkey 


素 ， 比 如 订单 出 错 后 的 用 户 流失 率 ， 以 及 





有 多 少 用 户 或 订单 在 出 错 之 后 重 试 。 如 果 疫 有 商业 头脑 ， 很 难 思 考 这 类 问题 ， 但 在 没有 数 





据 可 用 时 ， 推 测 也 是 有 用 的 。 


这 些 数据 是 会 改变 的 ， 所 以 在 执行 流 
变 得 更 有 竞争 力 ， 并 且 UberPony 在 订单 吕 


























程 时 ， 要 确保 将 数据 更 新 到 最 新 状态 。 如 果 UberDonkey 





错 后 会 流失 5% 的 用 户 ， 那 么 此 时 我 们 订单 / 履 





约 服务 宕 机 的 损失 就 变 为 每 分 钟 52 500 美元 ， 成 为 高 优先 级 的 事 了 。 因 此 ， 集 中 精力 提升 





用 户 注册 服务 的 优先 级 更 为 合理 。 


3.4.2 ”架构 清 


























定义 完了 工作 范围 ， 下 面 为 我 们 负责 的 系统 和 环境 列 出 清单 : 


。 数据 中 心 ， 








。 架构 组 件 /层次 (MySQL、Nginx 负载 均衡 、J2EE 应 用 实例 、 网 络 、 防 火 墙 、Hadoop/ 


HDFS、 CDN),; 
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。 组 件 的 角色 〈 写 库 / 主 库 、 副 本 ) ; 

。 服务 间 的 交互 和 通信 方式 (从 应 用 到 MySQL 的 请 求 、 从 负载 均衡 到 应 用 的 请 求 、 从 应 
用 到 Redis 的 请 求 ) ; 

。 各 种 任务 〈 提 取 、 转 换 和 加 载 ，CDN 加 载 ， 缓 存 刷 新 ， 配 置 管理 ， 编 排 ， 备 份 和 恢复 ， 


日 志 聚 合 ) 。 




















高 优先 级 服务 的 精简 请 单 如 表 3-3 所 示 。 
表 3-3: UberPony 用 户 注册 服务 























组 件 数据 中 心 1 统计 数据 中 心 2 统 计 
前 端 负载 均衡 2 2 
Web 服务 器 20 20 
Java 负载 均衡 2 2 
Java 服务 器 0 10 
数据 库 代 理 2 2 
Cloudfront CDN 及 务 服务 
Redis 缓存 服务 4 4 
MySQL 写 集群 服务 器 0 
MySQL 读 集群 服务 器 2 2 
MySQL 复制 及 务 服务 
CDN 刷新 任务 任务 
Redis 缓存 刷新 任务 任务 
MySQL 备份 任务 不 适用 
ETL 处 理 任务 不 适用 
RedShift 数据 仓库 及 务 不 适用 
下 一 步 是 评估 该 架构 中 可 能 影响 服务 的 风险 点 。 











3.4.3 ”优先 级 
如 何 判断 那些 可 能 影响 服务 SLO 的 风险 的 优先 级 呢 ? 风险 管理 领域 用 导致 有 害 结果 的 风险 
的 可 能 性 乘 以 该 结果 的 后 果 来 定义 风险 。 表 3-4 给 出 了 评估 范围。 








表 3-4: 风险 评估 范围 

















可 能 性 /影响 致命 严重 中 等 较 小 微小 

几乎 必然 不 可 接受 不 可 接受 高 中 等 可 接受 
非常 可 能 不 可 接受 高 高 等 可 接受 
有 可 能 不 可 接受 高 中 等 中 等 可 接受 
不 大 可 能 高 中 等 中 等 可 接受 可 接受 
几乎 不 可 能 高 中 等 可 接受 可 接受 可 接受 






































为 了 消除 皮 义 ， 量 化 可 能 性 和 结果 很 重要 ， 而 结果 会 随 特定 领域 问题 而 异 。 如 果 对 于 可 能 
性 /概率 有 疑问 ， 可 参考 David A. Hillson 的 论文 “Describing probability: The limitations of 


natural language” 。 





下 面 把 可 能 性 的 程度 分 为 几 个 区 间 ， 如 表 3-5 所 示 。 
表 3-5: 可 能 性 划分 








程度 范围 
几乎 必然 >50% 
非常 可 能 26%~50% 
有 可 能 11%~25% 
不 太 可 能 5%~10% 
几乎 不 可 能 <5% 


我 们 将 其 视 为 在 特定 时 期 (例如 一 周 ) 内 违 此 SLO 的 百分比 。 就 影响 而 言 ， 在 定义 影响 的 
类 别 和 其 他 可 能 会 摧毁 业务 的 问题 时 ， 我 们 会 考虑 SLO。 这 些 问题 包括 : 数据 损坏 、 隐 私 
泄露 以 及 安全 事故 ， 这 些 大 都 归 到 “严重 ”甚至 “致命 ”的 类 别 。 同 样 ， 这 些 只 是 例子 。 








1. 致命 影响 (正在 违背 SLO) 
致命 影响 的 潜在 特征 如 下 。 


整个 服务 不 可 用 或 者 降级 ( 延 时 超过 100 ms) ， 持 续 10 分 钟 或 以 上 ， 影 响 了 5% 甚至 更 
多 用 户 (1 周 有 10 080 分 钟 ， 那 么 10 分 钟 的 宕 机 就 违背 了 99.9% 可 用 性 的 SLO)。 

。 即将 或 者 正在 把 用 户 数据 暴露 给 其 他 用 户 。 

。 让 未 获 授 权 者 访问 生产 系统 或 数据 。 

。 事务 数据 损坏 。 


上 述 任何 一 项 都 可 能 产生 致命 影响 。 


2. 严重 影响 将 要 违背 SLO) 
严重 影响 的 潜在 特征 如 下 。 














整个 服务 不 可 用 或 者 降级 ( 延 时 超过 100 ms ) , 持续 3~5 分 钟 , 影响 了 5% 其 至 更 多 用 户 
(用 完了 50% 的 可 用 性 预算 )。 
系统 容量 刚好 满足 实际 需求 ， 不 符合 留 出 一 倍 匈 余 的 目标 。 

上 述 任何 一 项 都 可 能 产生 严重 影响 。 

3. 中 等 影响 (同一 时 期 发 生 的 其 他 事故 会 影响 SLO) 

中 等 影响 的 潜在 特征 如 下 。 
整个 服务 不 可 用 或 者 降级 ( 延 时 超过 100 ms ) , 持续 1~3 分 钟 , 影响 了 5% 甚至 更 多 用 户 
(用 完了 33% 的 可 用 性 预算 )。 
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。 系统 容量 还 剩 23%， 不 符合 留 出 一 倍 元 余 的 目标 。 
上 述 任何 一 项 都 可 能 产生 中 等 影响 。 


4. 较 小 影响 
较 小 影响 的 潜在 特征 如 下 。 





。 整个 服务 不 可 用 或 者 降级 ( 延 时 超过 100 ms)， 持 续 1 分钟 ， 影 响 了 5% 甚至 更 多 用 户 
(用 完了 10% 的 可 用 性 预算 )。 
。 系统 容量 还 剩 50%， 不 符合 留 出 一 倍 元 余 的 目标 。 





上 述 任何 一 项 都 可 能 产生 较 小 影响 。 


在 此 提醒 ,我们 不 会 试图 识别 所 有 潜在 风险 。 在 日 复 一 日 的 事故 管理 和 风险 管理 中 ， 你 会 
添加 更 多 内 容 。 我 们 现在 所 做 的 是 制定 框架 ， 即 确定 一 个 有 限 的 范围 ， 以 务实 的 方式 约束 
工作 。 在 本 例 中 ， 我 们 基于 最 有 可 能 和 影响 最 大 的 场景 来 制定 框架 。 
























































在 公有 云 环境 中 ， 比 如 UberPony 使 用 的 主机 ， 组 件 故 障 和 实例 故障 很 常见 。 换 言 之 ， 
MTBF 很 短 。 因 为 在 任何 时 候 都 运行 着 相当 数量 的 服务 器 (10 个 或 20 个)， 所 以 Web 实 
例 和 Java 实例 “很 可 能 ”发 生 故 障 。 话 虽 如 此 ，Web 实例 发 生 故障 意味 着 有 5% 的 用 户 受 
影响 ，Java 实例 发 生 故 障 意 味 着 有 10% 的 用 户 受 影响 。 这 就 违背 了 SLO， 因 为 可 能 需要 
花费 3~5 分 钟 启动 一 个 新 的 实例 ， 而 这 可 能 会 产生 严重 影响 。 概 率 大 且 影 响 严 重 ， 则 必然 
高 风险 。 如 果 引 入 自动 修复 功能 ( 移 除 故障 实例 ， 并 启动 一 个 新 实例 来 替代 )， 经 过 测试 ， 
这 个 过 程 平均 只 需 5s。 这 会 将 影响 降 至 较 小 ， 因 而 风险 也 变 成 中 等 。 


如 果 架 构 清单 中 的 组 件 在 服务 或 者 实例 级 别 发 生 故 障 ， 则 情况 可 能 会 如 表 3-6 所 示 。 
表 3-6: UberPony 用 户 注册 服务 





























组 件 可 能 性 影响 程度 风险 
前 端 负载 均衡 有 可 能 致命 不 可 接受 
Web 服务 器 很 可 能 严重 高 
Java 负载 均衡 有 可 能 严重 高 
Java 服务 器 很 可 能 严重 高 
数据 库 代 理 有 可 能 严重 高 
Cloudfront CDN 几乎 不 可 能 严重 中 等 
Redis 缓存 服务 有 可 能 严重 中 等 
MySQL 写 服务 器 不 大 可 能 致命 高 
MySQL 读 服 务 器 有 可 能 严重 高 
MySQL 复制 有 可 能 严重 高 
CDN 刷新 不 大 可 能 较 小 可 接受 
Redis 缓存 刷新 不 大 可 能 较 小 可 接受 























组 件 可 能 性 影响 程度 风险 

MySQL 备份 不 太 可 能 严重 可 接受 
ETL 处 理 不 太 可 能 较 小 可 接受 
RedShift 数据 仓库 几乎 不 可 能 较 小 可 接受 





基于 上 述 框 架 ， 首 先 深 入 研究 任何 不 可 接受 或 高 风险 的 事项 ， 然 后 继续 深入 研究 中 等 风险 
的 案例 ， 以 此 类 推 。 介 绍 过 运 维 核心 之 后 会 探讨 数据 库 ， 届 时 将 详细 介绍 数据 库 的 风险 管 
理 。 这 部 分 内 容 则 在 帮助 你 理解 相关 流程 。 另 一 个 忠告 是 ， 需 要 考虑 整个 数据 中 心 层级 的 
风险 ， 尽 管 这 种 风险 很 少 发 生 ， 但 也 跟 隐私 泄露 、 数 据 丢 失 以 及 可 能 会 导致 企业 倒闭 的 其 
他 问题 归 为 一 类 。 


























3.4.4 风险 控制 和 决策 制定 

有 了 划分 优先 级 的 风险 列表 用 于 评估 ， 下 面 了 解 降低 和 消除 这 些 风险 的 控制 技术 。 前 面 通 
过 在 Web 服务 器 和 Java 服务 器 中 引入 自动 替换 来 缩短 了 MTTR。 请 记 住 ， 这 里 的 重点 是 
快速 恢复 和 缩短 MTTR， 而 不 是 消除 故障 。 可 弹性 伸缩 的 系统 好 于 高 可 用 的 脆弱 系统 。 
































为 何 MTTR 比 MTBF 重要 

很 少 崩 涡 的 系统 ， 本 质 上 是 脆弱 的 。 当 系统 发 生 故 障 时 ， 团 队 是 否 有 把 握 修 
复 ?” 知道 该 怎么 做 吗 ? 经 常 发 生 故 障 的 系统 有 很 好 的 风险 控制 和 缓解 措施 ， 
以 至 于 可 以 忽略 故障 影响 ， 并 且 团 队 知 道 出 现 问 题 时 应 该 如 何 应 对 。 操 作 流 
程 拥 有 良好 的 文档 并 经 过 实践 检验 ， 自 动 修复 实际 上 变 得 非常 有 用 ， 而 不 是 
让 问题 隐藏 在 系统 的 黑暗 角落 。 














对 于 潜在 的 风险 ， 困 队 有 以 下 3 种 选择 : 


。 规避 (找到 消除 风险 的 方法 ) ; 
降低 (设法 减轻 风险 发 生 时 的 影响 ) ; 
接受 (标记 风险 是 可 容忍 的 ， 并 针对 这 些 风 险 制定 计划 )。 


从 技术 上 讲 ， 在 风险 管理 领域 有 第 4 种 方法 : 风险 分 担 一 一 通过 外 包 、 保 险 和 其 他 方法 转 
移 风 险 ， 然 而 这 不 适用 于 信息 技术 行业 ， 因 此 不 做 讨论 。 











对 于 每 个 组 件 ， 我 们 将 考虑 故障 的 类 型 和 影响 ， 以 及 自动 恢复 、 缩 短 恢 复 时 间 和 降低 故障 
频率 的 控制 手段 。 与 之 相关 联 的 是 成 本 和 工作 量 ， 通 过 比较 成 本 和 宕 机 损失 ， 可 以 采取 合 
理 的 措施 减轻 故障 影响 。 

1. 辨别 

在 UberPony 的 风险 评估 中 ， 我 们 将 MySQL 存储 服务 的 多 个 层 视 为 高 风险 ， 这 些 是 典型 的 
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数据 库 层 。 下 面 看 看 降低 风险 的 可 行 措施 。 我 们 已 经 确定 了 该 服务 的 4 个 关键 故障 点 : 











写实 例 故 障 ， 
。 读 实例 故障 ， 
。 复制 故障 ， 
。 备份 故障 。 


这 些 都 是 数据 存储 系统 的 常见 故障 点 。 





2. 评估 
对 于 写实 例 故 障 ，UberPony 运 维 团队 讨论 并 评估 以 自动 化 的 方式 从 MySQL 写实 例 故 障 
恢复 。 如 果 写 实例 发 生 故 障 ， 注 册 服 务 就 不 能 创建 或 修改 任何 数据 了 。 这 意味 着 无 法 增加 
新 用 户 ， 现 有 用 户 或 UberPony 也 都 无 法 更 改 用 户 数 据 。 如 果 注 册 服 务 在 高 峰 期 宕 机 ， 
每 分 钟 损失 的 用 户 价值 可 达 6 万 美元 。 所 以 ， 解 决 这 个 问题 非常 重要 ， 接 受 风险 的 做 法 不 
可 取 。 











3. 降低 和 控制 风险 

已 有 一 些 消除 风险 的 方法 。 我 们 有 一 个 提供 元 余 功 能 的 RAID 10 磁盘 系统 ， 因 此 磁盘 故 
障 不 会 导致 数据 库 故障 。 在 整个 环境 中 也 存在 类 似 的 匈 余 。 另 一 种 消除 风险 的 方法 是 用 
Galera 替换 基本 的 MySQL 数据库 引 擎 。Galera 是 一 种 架构 ， 可 向 MySQL 集群 中 的 任何 节 
点 写 人 数据 。 这 需要 对 架构 进行 重大 调整 ， 而 且 团 队 中 没有 人 熟悉 该 引擎 。 经 过 考虑 ， 新 
系统 带 来 的 风险 似乎 超过 了 所 能 产生 的 收益 。 


如 果 应 用 程序 设计 合理 ， 用 户 仍然 可 以 登录 并 从 可 读 实例 中 查看 数据 。 这 就 是 “降低 风 
险 ”。 在 与 软件 工程 团队 的 交谈 中 我 们 得 知 ， 这 在 他 们 的 考虑 之 中 。 然 而 ， 在 降级 模式 下 
新 用 户 仍然 不 能 注册 ， 因 此 该 功能 不 会 产生 太 多 收益 (在 竞争 激烈 的 市 场 环 境 中 ， 有 些 功 
能 未 开发 ， 代 价 是 很 高 昂 的 )。 

最 终 ， 团 队 决 定 开发 自动 修复 功能 ， 在 本 例 中 ， 就 是 通过 把 流量 切换 到 另 一 个 主 服务 器 来 


自动 修复 故障 。 他 们 选择 自动 化 而 不 是 手动 操作 ， 因 为 SLO 只 允许 宕 机 10 分 钟 ， 手 动 修 
复 根 本 来 不 及 。 也 就 是 说 ， 在 管理 写 操作 时 可 能 会 丢失 数据 ， 所 以 该 过 程 必须 非常 可 靠 。 
















































































4. 实现 

团队 决定 使 用 MySQL MHA 实施 自动 故障 转移 。MySQL MHA 也 称 MySQL 高 可 用 ， 是 一 
种 管理 故障 转移 以 及 为 此 变更 复制 拓扑 的 软件 。 在 实施 这 样 的 关键 变更 之 前 ， 团 队 拟定 
了 一 个 稳健 的 测试 计划 。 测 试 分 阶段 进行 ， 从 一 个 没有 任何 流量 的 测试 环境 开始 ， 然 后 
是 有 模拟 流量 的 测试 环境 ， 最 后 是 密切 监控 的 生产 系统 。 多 次 进行 这 些 测试 以 确保 没有 
任何 异常 ， 测 试 内 容 包 括 : 


。 在 测试 环境 中 直接 关闭 主 数据 库 ， 











。 在 测试 环境 中 终止 MySQL 进程 ， 
。 在 测试 环境 中 结束 运行 MySQL 的 服务 器 实例 ， 
。 模拟 网 络 分 区 。 








每 次 测试 之 后 ， 团 队 会 做 以 下 工作 : 


。 记录 故障 转移 的 持续 时 间 ， 

。 记录 模拟 环境 和 生产 环境 的 请 求 延 迟 ， 以 评估 对 性 能 的 影响 ; 
。 验证 数据 库 表 是 否 损坏 ， 

。 验证 数据 有 无 丢失 ， 

。 查看 来 自 客户 端的 错误 日 志 ， 以 了 解 这 段 时 间 的 影响 。 


当 系 统 的 表现 令 团 队 满意 并 且 符 合 SLO 时 ， 可 考虑 将 此 过 程 融入 其 他 日 常 流程 中 ， 以 确保 
它 正 确 执 行 、 拥 有 清晰 的 文档 并 且 没 有 bug。 团 队 最 初 选择 将 其 融入 部 署 流程 中 ， 通 过 故 
障 转移 流程 对 数据 库 对 象 进行 深 动 变更 ， 以 免 影响 MySQL 的 单线 程 复制 。 当 团队 完成 这 
些 工 作 后 ， 故 障 的 影响 时 间 缩 短 到 30 s 甚至 更 少 。 



































软件 工程 团队 在 实施 故障 转移 的 过 程 中 ， 还 发 现 这 30 s 内 有 可 能 发 生 数据 丢失 。 因 此 ， 团 
队 让 应 用 程序 执行 双 写 ， 将 所 有 插入 、 更 新 和 删除 发 送 给 事件 代理 ， 以 便 恢复 数据 。 这 是 
进一步 缓解 写 主 库 故障 转移 所 产生 影响 的 措施 。 


这 只 是 风险 管控 的 初始 版 本 。 重 点 是 记 住 这 并 非 完 美的 方案 ， 而 只 是 一 系列 风险 管控 手 
段 ， 只 关注 优先 级 最 高 和 价值 最 大 的 风险 。 


























随 着 初始 版 本 的 完成 ， 和 常见 风险 案例 已 介绍 完毕 ， 下 面 进入 和 迭代 过 程 。 


3.5 ”持续 迁 代 


有 了 初始 版 本 ， 我 们 将 在 “架构 流水 线 ”(architectural pipeline) 中 考虑 降低 和 消除 故障 风 
险 的 优先 级 ， 进 而 改进 设计 、 构 建 和 持续 的 运 维 操作 。 之 前 提 到 风险 管理 是 一 个 持续 的 过 
程 ， 故 开始 时 不 需要 考虑 全 面 ， 因 为 在 持续 迭代 的 过 程 中 会 增加 风险 考量 点 ， 以 覆盖 更 大 
范围 ， 如 图 3-2 所 示 。 那 么 这 个 流程 是 怎样 的 呢 ? 















































。 事故 管理 。 
。 架构 流水 线 。 


服务 交付 评审 是 对 服务 演进 的 定期 回顾 ， 着 眼 于 风险 容忍 度 、 收 入 、 成 本 和 用 户 需求 的 变 
化 。 随 着 这 些 因素 发 生 显著 变化 ， 必 须 重新 考虑 以 前 的 风险 承受 能 力 以 及 降低 和 消除 风险 
的 措施 ， 以 确保 它们 仍然 是 可 接受 的 。 














风险 管理 
初始 版 本 


服务 风险 评估 


新 组 件 


风险 优先 级 事故 管理 | 
风险 控制 和 决策 制定 架构 流水 线 


图 3-2: 风险 管理 流程 的 生命 周期 及 其 他 考量 点 




















事故 管理 流程 还 将 引入 新 的 风险 考量 点 。 由 于 事后 总 结 会 揭示 系统 的 新 脆弱 点 ， 因 此 必须 
分 析 这 些 脆弱 点 并 将 它们 添加 到 优先 级 列表 中 。 最 后 ， 随 着 架构 流水 线 的 构建 ， 必 须 通 过 
风险 管理 流程 引入 新 组 件 ， 以 识别 设计 阶段 可 能 遗漏 的 任何 风险 点 。 





3.6 小结 


本 章 介绍 了 把 风险 管理 纳入 IT 日 常 流程 的 重要 性 ， 讨 论 了 可 能 影响 流程 的 考虑 事项 和 因 
素 ， 并 在 日 常 流程 中 引入 了 风险 管理 的 初始 版 本 ， 以 便 随 着 时 间 的 推移 逐步 完善 。 











即使 了 解 了 服务 等 级 的 承诺 和 这 些 承诺 的 葡 在 风险 ， 仍 然 缺少 一 个 重要 的 组 成 部 分 : 运 维 
可 见 性 。 我 们 需要 具备 态势 感知 能 力 ， 了 解 系 统 过 往 的 性 能 和 特性 ， 以 便 预 见 问题 ， 并 就 
如 何 持续 改进 系统 做 出 决策 。 











第 4 章 


运 维 可 见 性 





可 见 性 (通常 称 为 “监控 ”) 是 数据 库 可 靠 性 工程 技术 的 基石 。 运 维 可 见 性 (OpViz) 意味 
着 ， 通 过 定期 测量 和 收集 关于 各 个 组 件 的 数据 ， 了 解数 据 库 服务 的 特性 。 为 何 它 很 重要 ? 
为 何 需 要 运 维 可 见 性 ?部 分 原因 如 下 。 


口 故障 / 修复 和 报警 
我 们 需要 知道 故障 是 何 时 发 生 的 ， 或 者 何 时 会 发 生 故 障 ， 以 便 进 行 修复 ， 避 免 违 背 
SLO。 














口 性 能 和 行为 分 析 
理解 应 用 程序 的 延 时 分 布 (包括 异常 值 ) 很 重要 ， 我 们 需要 了 解 实时 趋势 。 这 些 数据 对 
于 了 解 新 功能 、 实 验 和 优化 的 影响 至 关 重 要 。 





口 容量 规划 
能 够 将 用 户 行为 和 应 用 程序 效率 与 实际 资源 〈CPU、 网 络 、 存 储 、 吞 吐 量 、 内 存 ) 关联 
起 来 ， 对 于 确保 业务 在 关键 时 期 不 会 遇 到 容量 不 足 的 情况 至 关 重 要 。 


口 调试 与 剖析 
快速 变更 意味 着 服务 可 能 会 中 断 。 和 良好 的 操作 可 见 性 让 我 们 能 够 快速 识别 故障 点 和 优化 
点 ， 以 降低 未 来 可 能 出 现 的 风险 。 人 为 错误 从 来 不 是 根本 原因 ， 但 系统 总 是 可 以 改进 得 
更 有 弹性 。 
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人 为 错误 从 来 不 是 根本 原因 吗 
在 分 析 故 障 或 问题 时 ， 很 容易 把 错误 的 根本 原因 归于 人 。 但 是 ， 如 果 深 入 研究 ， 就 会 
发 现 人 为 错误 似乎 是 由 流程 或 环境 的 问题 导致 的 。 怎 么 会 这 样 呢 ? 部 分 原因 如 下 。 
。 脆弱 、 缺 乏 工具 或 过 于 复杂 的 系统 可 能 会 导致 人 类 犯错 ，。 
。 流程 没有 考虑 到 人 的 需求 ， 比 如 休息 、 环 境 或 技能 ， 也 可 能 导致 人 类 犯错 。 
。 雇用 和 培训 运 维 人 员 的 流程 可 能 失效 了 ， 导 致 不 合适 的 运 维 人 员 进 入 了 环境 
此 外 ,“ 根 本 原因 ”这 样 的 表述 本 身 就 有 问题 ， 因 为 很 少 有 单个 问题 导致 错误 和 故障 的 
情况 。 复 杂 的 系统 会 导致 复杂 的 故障 ， 而 人 会 使 得 事情 变 得 更 加 复杂 。 应 当 考 虑 各 种 
因素 ， 并 按 风险 和 影响 的 优先 级 排列 ， 而 不 是 挖 据 根 本 原因 。 








口 商业 分 析 


了 解 用 户 如 何 使 用 业务 功能 是 非常 关键 的 指标 。 普 遍 而 言 ， 了 解 人 们 如 何 使 用 你 提供 的 


功能 以 及 它 提供 的 价值 与 成 本 之 间 的 关系 是 至 关 重要 的 。 
口 相关 性 和 因果 关系 





通过 将 基础 设施 和 应 用 程序 中 的 事件 注册 到 运 维 可 见 性 系统 中 ， 可 以 快速 地 将 工作 负 
载 、 行 为 和 可 用 性 方面 的 变更 关联 起 来 ， 事件 的 示例 包括 应 用 程序 部 署 、 基 础 设施 变更 





和 数据 库 schema 变更 。 





组 织 的 各 方面 都 需要 真正 的 运 维 可 见 性 。 本 章 着 重 探 讨 架 构 的 可 观测 性 问题 。 虽 然 没 有 推 
崇 的 工具 ， 但 是 有 一 些 原则 、 通 用 分 类 和 使 用 模式 值得 了 解 。 下 面 通过 大 量 案例 研究 和 示 





例 方法 来 说 明 。 首 先 考 虑 运 维 可 见 性 从 传统 方法 到 当前 方法 的 演变 。 











传统 监控 
传统 的 监控 系统 一 般 具有 以 下 特点 。 


有 时 以 年 为 单位 。 
。 网 络 地 址 和 硬件 地 址 是 稳定 的 。 
。 关注 点 是 系统 而 非 服务 。 
。 对 利用 率 和 静态 阅 值 (又 名 “征兆 ”) 的 监控 比 面向 用 户 的 指标 (SLI 更 多 ) 。 
。 不 同系 统 之 间 有 不 同 的 坚 间 (例如 网 络 和 数据 库 ) 。 
。 粗 粒 度 (间隔 1 分 钟 或 分 钟 ) 。 
。 关注 收集 ( 轮 询 ) 和 展示 ， 而 非 分 析 。 
。 管理 开销 大 ， 而 且 常 常 比 被 监控 的 服务 脆弱 。 





。 主机 通常 是 服务 器 , 而 不 是 虚拟 实例 或 容器 ,它们 的 生命 周期 普遍 较 长 ,以 月 为 单位 ， 
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可 以 将 其 归结 为 一 种 “传统 监控 ”心态 。 在 传统 环境 中 ， 数 据 库 管 理 员 主要 关注 诸如 
“我 的 数据 库 启 动 了 吗 ”以 及 “使 用 是 否 可 持续 ”这 样 的 问题 ， 而 不 考虑 数据 库 的 行为 
如 何 影响 用 户 服务 的 延 时 (可 查看 直方 图 中 的 度量 值 的 分 布 和 潜在 异常 值 )。 他 们 也 想 
这 样 做 ， 但 往往 缺少 相应 的 工具 。 














运 维 可 见 性 非常 重要 。 下 面 介绍 关于 如 何 设 计 、 构 建 和 利用 这 个 关键 因素 的 规则 。 


4.1 运 维 可 见 性 的 新 规则 


现代 运 维 可 见 性 假设 数据 存储 是 分 布 式 的 ， 而 且 通 常 是 大 规模 的 。 需 要 认识 到 ， 数 据 的 
收集 其 至 数据 展示 都 不 如 数据 分 析 重 要 。 我 们 总 是 希望 能 快速 搞 清楚 以 下 两 个 问题 :“ 对 
SLO 有 何 影 响 ? ” “为 何 工作 不 正常 ”换言之 ， 必 须 把 运 维 可 见 性 当 作 商业 智能 平台 来 
进行 设计 、 构 建 和 维护 ， 而 不 是 将 其 作为 一 组 实用 程序 交 给 运 维 团队 。 必 须 像 对 待 数据 仓 
库 或 大 数据 平台 一 样 对 待 它 ， 毕 竞 游 戏 规则 已 经 变 了 。 

















4.1.1 把 运 维 可 见 性 视 为 商业 智能 系统 

在 设计 商业 智能 系统 时 ， 首 先 要 考虑 用 户 可 能 提出 的 问题 类 型 ， 并 基于 此 进行 构建 。 考 虑 
用 户 对 数据 延 时 (“数据 访问 速度 有 多 快 ?”)、 数 据 解 析 (“用 户 如 何 使 用 数据 ? ”) 和 数 
据 可 用 性 的 需求 。 换 言 之 ， 为 运 维 可 见 性 服务 定义 SLO (参见 第 2 章 )。 








成 熟 的 运 维 可 见 性 平台 的 特点 是 ， 不 仅 可 以 显示 运行 应 用 程序 的 基础 设施 的 状态 ， 还 可 以 
显示 在 基础 设施 上 运行 的 应 用 程序 的 行为 。 此 外 ， 它 还 应 该 能 够 展示 业务 的 行为 ， 以 及 业 
务 所 依赖 的 基础 设施 和 应 用 程序 如 何 影 响 业 务 。 鉴 于 此 ， 运 维 可 见 性 平台 必须 能 够 满足 运 
维 人 员 、 数 据 库 工程 师 、 软 件 工程 师 、 商 业 分 析 师 和 公司 高 管 的 需求 。 


4.1.2 分布 式 易 失 环境 成 为 趋势 

前 文 提 到 ， 随 着 虚拟 化 基础 设施 的 使 用 ， 数 据 库 实例 的 生命 周期 正在 变 短 。 尽 管 它们 的 生 
命 周期 仍 比 其 他 组 件 长 得 多 ， 但 是 我 们 仍然 需要 收集 由 短 生命 周期 组 件 所 构成 的 服务 的 度 
量 值 ， 而 不 是 单个 数据 库 主 机 的 度量 值 。 


图 4-1 展示 了 关系 型 数据 存储 的 一 个 相当 稳定 的 主 / 副本 设置 ， 在 这 种 数据 库 中 一 天 可 能 
有 许多 活动 。 当 一 天 结束 时 ， 我 们 可 以 看 到 一 个 全 新 的 设置 ， 如 图 4-2 所 示 。 















































一 天 的 活动 


。 增 加 DB03 和 DB04 
以 应 对 市 场 增 长 
“滚动 变更 副本 的 schema 


“ 提升 DB02 为 主 服务 器 
。 销毁 DB01 
。 添 加 DB05 作 为 副本 











图 4-1: 典型 的 主 /副本 设置 





一 天 结束 时 的 状态 


DB02 


主 服务 器 














图 4-2: 一 天 结束 时 

这 种 动态 的 基础 设施 要 求 我 们 基于 角色 来 存储 度量 值 ， 而 不 是 基于 主机 名 或 全 。 因 此 ,我 
们 不 会 将 一 组 度量 值 存储 为 DB01， 而 是 将 度量 值 视 为 主 服务 器 的 ， 以 此 观察 所 有 主 服务 
器 的 行为 ， 即 使 切换 了 主 服务 器 。 服 务 发 现 系统 在 维护 基础 设施 动态 部 分 之 上 的 抽象 方面 
做 得 很 好 ， 可 以 促进 这 一 点 。 
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4.1.3 高 频 存 储 关 键 度量 值 

高 频 采 集 度量 值 对 于 理解 繁忙 应 用 程序 的 工作 负载 非常 重要 。 至 少 ， 与 SLO 相关 的 数据 都 
应 该 保持 每 秒 一 次 或 更 高 的 采样 速率 ， 以 确保 了 解 系 统 的 运行 状况 。 一 条 很 好 的 经 验 法 则 
是 ， 考 虑 度量 值 在 1~10s 内 是 否 有 足够 的 变化 来 影响 SLO， 并 基于 此 确定 粒度 。 








如 果 你 正在 监控 一 个 受 限 的 资源 ， 比 如 CPU， 可 能 希望 以 1 s 或 更 小 的 间隔 收集 数据 ， 因 
为 CPU 负载 变化 非常 快 。 对 于 以 毫秒 为 单位 的 延 时 SLO， 数 据 采 集 必 须 足 够 密集 ， 以 检 
查 CPU 负载 是 否 是 造成 应 用 程序 延 时 的 原因 。 数 据 库 连接 是 另 一 个 例子 ， 采 样 不 频繁 的 
话 就 可 能 忽略 其 影响 。 





相反 ， 对 于 不 经 常 变 更 的 条 目 ， 比 如 磁盘 空间 或 服务 可 用 性 ， 可 以 在 不 丢失 数据 的 情况 下 
以 每 分 钟 一 次 或 更 低 的 采样 速率 收集 测量 数据 。 高 频 收 集 数据 会 消耗 大 量 资 源 ， 应 明智 选 
择 。 类 似 地 ， 采 样 速率 应 少 于 5 个 ， 以 保持 运 维 可 见 性 平台 的 简单 性 和 结构 。 


图 4-3 展示 了 采样 间隔 太 长 造成 影响 的 一 个 例子 。 




















图 4-3: 实际 工作 负载 展示 了 峰值 


图 4-3 显示 有 两 个 尖峰 ， 随 后 是 长 时 间 的 负载 增加 。 现 在 如 果 每 隔 1 分 钟 进行 采样 ， 图 形 
就 会 如 图 4-4 所 示 。 














存储 的 数据 


代理 捕获 


2 分 钟 3 














图 4-4: 通过 每 分 钟 采样 可 视 化 工作 负载 


注意 ， 图 4-4 中 甚至 没有 明显 的 峰值 ， 线 条 看 起 来 要 平 请 得 多 。 事 实 上 ， 直 到 第 3 分 钟 都 
没有 超过 报警 国 值 。 假 设 每 分 钟 存储 一 次 度量 值 并 检查 报警 规则 ， 我 们 甚至 在 违反 规则 
7.5 分 钟 之 后 才 会 向 运 维 人 员 报 警 。 


4.1.4 保持 架构 简洁 

对 于 一 个 不 断 增 长 ， 并 且 基 础 设施 中 服务 的 实例 /服务 器 随时 上 下 线 的 系统 而 言 ， 在 不 同 
粒度 上 检查 1 万 甚至 更 多 度量 值 是 很 正常 的 。 我 们 的 目标 是 能 够 快速 地 回答 上述 问 题 ， 这 
就 要 求 不 断 降 低 信 噪 比 ， 而 这 意味 着 要 严格 控制 允许 进入 系统 的 数据 量 ， 特 别 是 在 人 员 交 
互 点 ， 比 如 展示 和 报警 。 


-监控 一 切 ” 成 为 监控 的 口号 已 有 很 长 一 段 时 间 了 ， 它 是 对 监控 稀 琉 上 且 独 特 的 环境 的 一 种 反 
应 。 事 实 上 ， 分 布 式 系统 和 多 服务 应 用 程序 的 度量 值 过 多 。 处 于 早期 阶段 的 组 织 往往 没有 资 
金 和 时 间 来 管理 如 此 多 的 监控 数据 ， 更 大 型 的 组 织 应 该 有 能 力 关 注 对 系统 至 关 重 要 的 东西 。 























聚焦 度量 值 
首先 关注 与 SLO 直接 相关 的 度量 值 ， 也 称 “ 关 键 路 径 " 。 根 据 第 2 章 所 述 ， 运 维 可 见 
性 平台 应 该 优先 考虑 如 下 度量 值 。 


口 延 时 
客户 问 调 用 服务 需要 多 长 时 间 ? 
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口 可 用 性 
有 多 少 调用 错误 ? 
口 调用 频率 
调用 服务 的 频率 是 多 少 ? 
口 利用 率 
查看 服务 时 ， 你 应 该 知道 如 何 使 用 关键 资源 保证 服务 质量 和 容量 。 
当然 ， 数 据 库 可 靠 性 工程 师 需 要 立即 开始 将 这 些 度 量 值 分 解 到 数据 存储 子 系统 中 。 这 
是 有 意义 的 ， 而 且 是 一 种 自然 进化 ， 稍 后 会 讨论 。 

















简单 性 也 包括 标准 化 ， 这 意味 着 标准 化 模板 、 解 析 以 及 呈现 给 工程 师 的 任何 控制 开关 和 特 
性 。 这 样 做 可 以 确保 系统 易于 理解 ， 从 而 便于 识别 和 解决 问题 。 


记 住 这 4 条 规则 ， 有 助 于 在 设计 和 构建 有 价值 、 有 用 的 监控 系统 时 保持 正确 的 方向 。 如 果 
发 现 自己 违反 了 规则 ， 多 找 找 原因 。 除 非 确 有 理由 ， 否 则 需要 考虑 最 基本 的 问题 。 


4.2 和 运 维 可 见 性 框架 


单 是 这 一 话题 就 够 写 一 本 书 了 。 当 开始 为 运 维 可 见 性 平台 收集 和 准备 数据 ， 以 便 完 成 工作 
时 ， 需 要 能 够 识别 好 的 平台 并 提倡 采用 更 好 的 平台 ， 这 就 是 本 市 的 目标 。 


可 以 把 运 维 可 见 性 平台 想象 成 一 个 巨大 的 分 布 式 VO 设备 。 数 据 被 传 信 、 路 由 、 结 构 化 ， 
最 终 从 另 一 端 输出 ， 以 帮助 你 更 好 地 理解 系统 ， 识 别 出 由 损坏 或 即将 损坏 的 组 件 所 引发 的 
行为 ， 并 满足 SLO。 详 细 过 程 如 下 。 


客户 端 上 的 代理 生成 数据 ， 然 后 发 送 到 该 数据 类 型 的 中 央 收 集 器 (用 于 Sensu 或 
CollectD 的 度量 值 、 用 于 Graphite 的 事件 、 用 于 Logstash 或 Splunk 的 日 志 ): 
一 集中 监控 系统 (比如 Sensu 或 Nagios) 除了 使 用 前 面 提 到 的 push 方法 ， 偶 尔 还 会 使 
用 pull 方法 进行 检查 ， 
一 与 必须 同时 配置 代理 和 监控 服务 器 的 Nagios 等 紧 耦 合 的 系统 相 比 ， 分 布 式 检查 (应 
用 程序 生成 检查 并 转发 ) 的 一 个 优势 是 ， 需 要 的 配置 管理 更 少 。 
。 收集 器 存储 数据 (存储 到 诸如 Graphite、InfluxDB 或 Elasticsearch 之 类 的 系统 ) 或 转发 
给 事件 路 由 / 处理 器 (比如 Riemann ) 。 
事件 路 由 器 将 数据 发 送 到 正确 的 位 置 。 
。 数据 输出 包括 长 期 存储 、 图 形 、 报 警 、 工 单 和 外 部 调用 。 


这 些 都 是 从 运 维 可 见 性 获得 的 价值 。 

































































4.3 数据 输入 


要 创建 输出 ， 需 要 民 好 的 输入 。 应 尽量 使 用 环境 已 生成 的 数据 ， 而 不 是 借助 人 工 探 测 。 通 
过 向 系统 发 送 请 求 来 模拟 用 户 被 称 为 黑 盒 监控 。 黑 盒 监 控 是 从 “人 金 丝 汰 ”用户 发 送 ， 或 监 
控 来 自 互 联网 边缘 的 输入 和 输出 。 如 果 流 量 较 小 或 者 运行 不 够 频繁 而 导致 无 法 有 效 监控 ， 
则 墨盒 监控 是 有 效 的 。 但 是 ， 如 果 正 在 生成 足够 的 数据 ， 那 么 获得 真正 的 度量 值 ( 白 盒 监 
控 ) 将 更 有 价值 。 白 盒 测 试 需要 对 应 用 程序 有 深入 了 解 ， 具体 而 言 ， 包 括 检测 应 用 程序 的 
内 部 逻辑 。 这 方面 的 优秀 工具 有 AppDynamics、NewRelic 和 Honeycomb。 使 用 这 类 工具 ， 
可 以 通过 应 用 程序 追踪 单个 用 户 流 程 ， 一 直 追 踪 到 数据 库 。 









































黑 盒 测试 和 排队 理论 
鉴于 廷 时 的 重要 性 ， 即 使 是 黑 盒 测试 ， 也 可 以 利用 排队 理论 、 流 量 信 息 和 调用 延 时 ， 
来 确定 系统 是 否 饱和 。 关 于 排队 理论 的 更 多 知识 ， 可 以 参考 VividCortex 的 The Essential 
Guide to Queueing Theory 和 新 墨西哥 大 学 Jim Plusquellic 教授 的 课程 “Advanced Computer 
Architecture” 。 














该 方法 的 一 个 优点 是 ， 任 何 创建 数据 的 事物 都 可 以 成 为 代理 。 随 着 系统 的 扩展 ， 生 成 检查 和 
探测 的 集中 式 、 单 一 的 解决 方案 将 面临 扩展 性 方面 的 挑战 ， 但 是 通过 白 盒 测试 ， 你 已 经 在 整 
个 架构 中 分 配 了 这 个 任务 。 这 种 架构 还 支持 轻松 地 注册 和 注销 新 服务 和 组 件 ， 这 得 益 于 运 维 
可 见 性 规则 。 话 虽 如 此 ， 但 有 时 监控 系统 可 以 远程 拉 取 是 有 价值 的 ， 比 如 检查 服务 是 否 可 
用 、 监 控 复 制 策略 是 否 正在 执行 ， 或 检查 数据 库 的 主机 上 有 是否 启用 了 一 个 重要 的 参数 。 









































从 噪声 中 区 分 出 信号 

我 们 越 来 越 依 赖 更 大 的 数据 集 来 管理 分 布 式 系统 。 现 在 ， 我 们 正在 使 用 大 数据 系统 ， 
管理 从 应 用 程序 和 基础 设施 中 收集 的 数据 。 如 前 所 述 ， 利 用 数据 科学 和 高 等 数学 是 当 
今 可 观测 性 领域 的 明显 不 足 。 为 了 有 效 地 从 这 些 噪声 中 识别 出 信号 ， 必 须 依靠 机 器 从 
噪声 中 区 分 出 信号 。 

这 一 领域 仍然 非常 理论 化 ， 对 于 多 峰 分 布 的 工作 负载 和 由 于 快速 选 代 或 用 户 群体 变化 导 
致 的 持续 变更 而 言 ， 大 多 数 异 常 检 测 尝试 已 被 证 明 是 不 可 用 的 。 良 好 的 异常 检测 系统 有 
助 于 识别 不 合 规 的 活动 ， 从 而 立即 指出 问题 。 通 过 获得 更 高 的 信 嗓 比 ， 可 以 缩短 MTTR。 
以 下 系统 值得 考虑 : 


。 Reimann 

。 Anomaly.io 
。 VividCortex 
。 Dynatrace 

。 Circonus 


。 Prometheus 
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我 们 希望 把 所 有 有 价值 的 数据 发 送 到 运 维 可 见 性 平台 ， 那 么 我 们 说 的 到 底 是 怎样 的 数 
据 呢 ? 


4.3.1 遥测 /度量 值 

度量 值 类 型 多 样 ， 而 且 几 乎 无 处 不 在 。 度 量 值 是 对 应 用 程序 或 基础 设施 组 件 的 属性 的 度量 。 
定期 观察 度量 值 ， 创 建 包含 属 性 、 时 间 惟 和 值 的 时 间 序 列 。 可 能 适用 的 属性 包括 主机 、 服 
务 或 数据 中 心 。 这 些 数据 的 真正 价值 体现 在 通过 图 表 等 可 视 化 工具 来 观察 它们 时 。 


度量 值 通常 以 以 下 4 种 方式 存储 。 

口 计数 器 

这 些 是 累积 的 度量 值 ， 表 示 特 定 事件 发 生 的 次 数 。 

口 仪表 盘 

这 些 度量 值 可 以 在 任何 方向 变化 ， 并 指示 当前 值 ， 比 如 温度 、 队 列 中 的 作业 或 活动 锁 。 


口 直方 图 
将 许多 事件 分 解 成 可 配置 的 桶 来 显示 分 布 。 


口 总 结 


2 


类 似 于 直方 图 ， 但 重点 是 证 明 请 动 时 间 窗 口 的 计数 。 


度量 值 通常 具有 相应 的 数学 函数 ， 用 于 从 可 视 化 中 获得 价值 。 这 些 国 数 创造 了 更 多 的 价 
值 ， 但 重要 的 是 要 记 住 它 们 是 派生 数据 ， 原 始 数据 也 很 重要 。 如 果 你 正在 追踪 每 分 钟 的 
平均 值 ， 但 没有 原始 数据 ， 将 无 法 在 较 大 的 窗口 上 (比如 小 时 或 天 ) 创建 平均 值 。 以 下 
是 一 些 函 数 : 


。 计数 ， 

。 求 和 ， 

。 均值 

。 中 位 数 ， 

。 百 分 位 数 ; 
。 标准 差 ， 

。 变化 率 ， 


。 分 布 。 









































分 布 的 可 视 化 

分 布 的 可 视 化 对 于 查看 Web 架构 中 生成 的 数据 非常 有 价值 。 这 类 数据 很 少 
正 态 分 布 ， 并 且 通 常 有 长 尾 。 在 常规 图 表 中 很 难看 出 这 一 点 。 而 采用 直 
或 火焰 图 等 可 视 化 工具 ， 生 成 一 段 时 间 的 分 布 图 ，; 
统 当前 的 负载 状况 。 











NS 
河上 









































































































































A 


各 有 助 于 运 维 人 员 了 解 系 























度量 值 是 识别 潜在 问题 表象 的 线索 ， 因 此 ， 对 于 尽早 发 现 并 快速 解决 可 能 影响 SLO 的 问题 
至 关 重 要 。 


4.3.2 事件 
事件 是 在 某 个 环境 中 发 生 的 离散 操作 。 配 置 变 更 、 代 码 部 署 、 主 库 故障 迁移 都 是 事件 ， 通 
过 这 些 事件 可 以 关联 表象 和 原因 。 











4.3.3 日 志 

每 个 事件 都 会 生成 日 志 ， 所 以 可 以 把 日 志 事 件 看 作 事件 的 子 集 。 对 于 某 些 事件 而 言 ， 操 作 
系统 、 数 据 库 、 应 用 程序 都 会 生成 相应 的 日 志 。 和 度量 值 不 同 , 日 志 可 以 提供 额外 的 信息 
以 及 事情 发 生 时 的 上 下 文 。 比 如 ， 数 据 库 查询 日 志 可 以 显示 查询 操作 是 何 时 执行 的 ， 以 及 
有 关 该 查询 的 一 些 重 要 度量 值 ， 甚 至 包括 执行 该 查询 的 数据 库 用 户 名 。 


4.4 数据 输出 


系统 正在 接收 输入 数据 ， 这 很 不 错 ， 但 不 能 直接 回答 我 们 的 问题 也 不 符合 SLO。 运 维 可 见 
性 框架 应 该 输出 什么 数据 ?下 面 进一步 研究 这 个 问题 。 












































口 报警 
报警 会 打 断 相关 人 员 的 工作 ， 通 知 他 们 放下 手头 工作 ， 去 调查 导致 触发 报警 的 违规 行 
为 。 该 行为 的 成 本 很 高 ， 应 该 只 在 即将 违背 SLO 时 才 采 用 。 

口 工 单 /任务 
当 有 工作 必须 完成 时 需要 创建 工 单 或 任务 ， 前 提 是 不 会 立即 发 生 灾难 性 故障 。 工 程 师 工 
作 清 单 中 的 工 单 / 任务 是 监控 的 部 分 输出 。 


























口 通知 
有 时 只 是 想 记 录 发 生 过 的 事件 ， 以 帮助 创建 事件 相关 信息 ， 例 如 注册 代码 部 署 事件 的 
时 间 。 通 常 把 相应 通知 记录 在 聊天 室 、wiki 或 其 他 协作 工具 中 ， 而 无 须 打 断 工作 流 。 





























上 
中 





见 Brendan Gregg 个 人 网 站 中 的 Latency Heat Maps 页 面 。 
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口 自动 化 
有 时 数据 ， 特 别 是 利用 率 数据 ， 会 声明 需要 增加 或 减少 容量 。 对 于 这 种 情况 ， 可 以 通知 
自动 扩 缩 容 组 的 同事 修改 资源 池 的 大 小 ， 这 是 自动 化 作为 监控 输出 的 一 个 例子 。 








口 可 视 化 
图 表 是 运 维 可 见 性 最 常见 的 输出 ， 呈 现 于 仪表 板 以 满足 不 同 用 户 的 需求 ， 也 是 人 们 进行 
模式 识别 的 关键 工具 。 


4.5 监控 的 初始 版 本 


能 你 对 即将 要 做 的 事情 感到 焦虑 ， 这 是 正常 现象 。 在 此 提醒 ， 即 将 构建 的 一 切 只 是 迭代 
ei 部 分 。 从 小 事 做 起 ， 让 其 不 断 演进 ， 并 在 需要 的 时 候 投 入 更 多 精力 ， 在 创业 环境 
中 尤 应 如 此 。 


对 于 全 新 的 创业 公司 ， 一 切 要 从 零 开 始 。 没 有 度量 值 ， 也 没有 报警 和 可 视 化 ， 只 有 一 帮 有 对 
自己 的 编码 水 平 高 度 自信 的 工程 师 。 许 多 初创 公司 在 公有 云 平 台 创 建 了 作为 原型 或 测试 平 
台 的 实例 ， 然 后 将 其 转换 为 生产 数据 库 。 


你 可 能 刚刚 成 为 一 家 初创 公司 的 第 一 位 运 维 人 员 或 数据 库 工程 师 ， 负 责 管理 软件 工程 师 构 
建 的 监控 和 可 视 化 系统 ， 而 实际 上 没有 任何 监控 和 可 视 化 系统 …… 


如 果 你 曾 供职 于 初创 公司 ， 可 能 有 过 这 种 境遇 。 不 用 不 好 意思 ， 很 多 初创 公司 是 这 样 。 如 
果 一 家 初创 公司 在 确定 实际 需求 之 前 ， 就 构建 了 一 个 复杂 的 操作 可 视 化 系统 ， 无 疑 是 一 个 
糟糕 的 做 法 。 初 创 公司 的 成 功 源 于 努力 打造 核心 产品 ， 快 速 迭代 ， 积 极 寻 找 用 户 ， 快 速 响 
应 用 户 反馈 和 解决 生产 问题 ， 以 及 在 如 何 利用 宝贵 资源 上 做 出 艰难 抉择 。 初 创 公 司 的 成 功 
还 源 于 在 需要 时 及 时 配备 完善 的 性 能 可 视 化 系统 ， 而 不 是 提前 配备 。 创 业 公司 失败 的 原因 
多 种 多 样 ， 但 通常 不 是 因为 工程 师 没 能 事先 预见 和 度量 所 有 可 能 的 存储 指标 。 最 初 需要 做 
的 只 是 建立 一 个 可 行 的 最 小 可 视 化 监控 集 。 







































































枚 举 数据 库 的 动态 部 分 


可 以 把 数据 看 作 从 容 户 端 到 数据 库 的 流 。 从 更 高 层次 看 ， 数 据 库 的 职责 是 接收 、 保 存 
和 返回 数据 。 


数据 在 客户 冯 内 存 中 。 

数据 在 客户 闯 和 数据 库 之 间 传 输 。 

数据 存储 到 数据 库 的 内 存 结构 中 。 

数据 存储 到 操作 系统 和 磁盘 内 存 结 构 中 。 
数据 存储 到 磁盘 上 。 

数据 存储 到 备份 和 归档 系统 中 。 
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对 于 数据 库 ， 需 要 了 解 以 下 方面 。 
获取 数据 需要 多 久 ， 为 什么 ? 
。 存 入 数据 需要 多 久 ， 为 什么 ? 
数据 被 安全 地 存储 了 吗 ? 是 如 何 存储 的 ? 
主 库 访 问 失败 时 ， 数 据 副本 可 用 吗 ? 
当然 ， 这 是 简化 版 本 ， 但 在 深入 研究 后 续 内 容 时 ， 这 可 以 作为 一 个 很 好 的 框架 。 











在 数据 库 、 操 作 系统 、 存 储 系 统 和 各 种 应 用 程序 层 中 ， 可 以 监控 很 多 度量 值 。 在 最 基本 的 
需求 下 ， 应 该 能 够 判断 数据 库 是 否 宕 机 ， 更 高 层次 的 目标 是 监控 与 真正 问题 相关 的 现象 ， 
比如 连接 数 和 锁 的 比例 。 常 见 的 过 程 如 下 。 


。 监控 数据 库 在 运行 还 是 关闭 了 (pull 检查 )。 

。 监控 总 体 的 延 时 /错误 率 ， 以 及 端 到 端的 “健康 检查 ”(push 检查 )。 

。 让 应 用 程序 层 度 量 每 次 数据 库 调 用 的 延 时 / 错误 率 (push 检查 )。 

。 尽 可 能 多 地 收集 操作 系统 、 存 储 、 数 据 库 和 应 用 程序 层 的 度量 值 ， 不 论 这 些 数 据 是 否 有 
用 。 大 多 数 操作 系统 、 服 务 和 数据 库 有 丰富 的 插件 。 
为 已 知 问题 创建 具体 的 检查 。 比 如 ， 当 某 百 分 比 的 节点 不 在 线 时 进行 检查 ， 或 者 针对 过 
高 的 全 局 锁 百 分 比 进行 检查 (主动 、 迭 代 地 进行 这 些 检 查 ， 详 见 第 3 章 )。 


























有 时 可 以 采用 第 三 方 监控 服务 ， 比 如 VividCortex、Circonus、HoneyComb、NewRelic 等 ， 
实现 高 层次 的 目标 。 但 是 ， 如 果 把 监控 数据 存储 到 不 同 的 系统 中 ， 则 不 够 优雅 ， 也 会 让 不 
同 监控 平台 之 间 的 数据 分 析 变 得 困难 。 并 不 是 说 这 样 做 不 好 或 者 不 可 行 ， 但 优雅 的 技巧 能 
让 你 走 得 更 远 。 但 在 “自我 实现 ”阶段 ， 通 常 所 有 监控 数据 都 会 使 用 同一 个 平台 。 
































现在 如 果 一 块 磁盘 发 生 故 障 或 者 工程 师 出 现 失误 ,需要 你 来 保护 公司 的 业务 ， 你 可 以 问 自 
己 一 些 关 于 服务 健康 状况 的 问题 。 对 于 初创 公司 ， 几 个 关键 问题 是 :“ 我 的 数据 是 安全 的 
吗 ? ““ 服 务 运行 正常 吗 ? ”“ 用 户 受 影响 了 吗 ? ”这 就 是 可 行 的 最 小 监控 集合 。 





4.5.1 数据 安全 吗 

任何 业务 的 关键 数据 都 至 少 需要 3 个 实时 备份 ， 即 “一 主 两 从 ”的 数据 存储 ， 比 如 MySQL、 
MongoDB ， 或 者 Cassandra/Hadoop 之 类 的 三 副本 分 布 式 存储 系统 ， 因 为 任何 时 候 关 键 数 据 
都 不 能 只 有 一 个 备份 。 这 意味 着 即使 有 一 个 实例 发 生 故 障 ， 仍 然 有 一 个 备份 ， 这 就 是 为 什 
么 最 小 副本 数 为 3， 而 不 是 2。 即 使 想 节 约 成 本 ， 并 且 每 天 都 在 忧心 初创 公司 的 发 展 速度 ， 
也 不 能 节省 关键 数据 的 备份 成 本 (第 5 章 将 讨论 架构 的 可 用 性 )。 
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但 并 不 是 所 有 数据 都 同等 宝贵 。 如 果 某 些 数 据 丢失 造 成 的 损失 是 可 接受 的 ， 或 者 可 以 从 不 
可 变 日 志 中 重建 数据 ， 那 么 n+1 个 副本 是 完全 可 以 的 (其 中 等 于 服务 正常 运行 所 需 市 点 
数 )。 只 有 知道 了 每 个 数据 集 对 公司 的 重要 程度 和 不 可 替代 性 ， 以 及 财务 的 紧张 程度 ， 才 
能 做 出 判断 。 你 仍然 需要 备份 ， 并 且 需 要 定期 检查 数据 备份 是 否 可 恢复 以 及 备份 过 程 是 否 
成 功 。 如 果 没 有 监控 备份 是 否 可 以 正常 工作 ， 就 不 能 认定 数据 是 安全 的 。 






































数据 安全 性 监控 样 例 

监控 中 应 包含 的 一 些 数据 安全 性 检查 如 下 : 
。3 个 数据 节点 都 在 线 ; 

。 备份 线程 正常 运行 ， 

。 至 少 1 个 节点 上 的 备份 延迟 不 到 1 s; 

。 最 近 的 备份 是 成 功 的 ; 

。 从 近期 的 自动 备份 进行 重建 是 成 功 的 。 








4.5.2 ”服务 运行 正常 吗 
在 工具 库 中 ， 端 到 端 检 查 是 最 有 效 的 工具 ， 因 为 它 最 能 反映 用 户 体验 。 应 该 有 一 个 上 层 的 
“健康 检查 ”， 不 仅 涵 盖 Web 层 和 应 用 程序 层 是 否 可 用 ， 还 池 盖 所 有 关键 路 径 上 的 数据 库 连 
接 情 况 。 如 有 果 数 据 分 到 多 个 主机 上 存放 ， 则 这 个 检查 应 该 从 每 个 分 片上 获取 一 个 对 象 ， 而 
且 应 该 自动 检查 所 有 分 片 列表 ， 这 样 在 扩容 时 就 无 须 手 动 添加 新 的 检查 了 。 


另外 ， 还 有 一 点 很 重要 ， 即 需要 对 负载 均衡 做 简单 的 可 用 性 检查 ， 但 它 不 能 消耗 过 多 数据 
库 连接 ， 否 则 “健康 检查 ”会 导致 服务 不 可 用 。 
































过 度 的 “健康 检查 ” 

夏 丽 蒂 曾经 开发 过 一 个 系统 ， 其 中 有 一 个 对 haproxy 做 “健康 检查 ”的 终端， 
会 在 一 个 MySQL 表 上 执行 简单 的 SELECT LIMIT 工 语 句 。 某 天 他 们 把 一 些 无 
状态 服务 扩容 至 两 倍 ， 执 行 检查 的 代理 服务 器 数量 也 随 之 翻 倍 了 。 在 对 其 他 
服务 扩容 时 ， 因 “健康 检查 ”导致 数据 库 服务 器 过 载 ， 意 外 导致 整个 服务 不 
可 用 。 数 据 库 中 95% 以 上 的 查询 都 是 类 似 的 不 合理 的 “健康 检查 ”， 要 引 以 
为 戒 。 


















































教训 惨痛 ， 提 醒 我 们 应 该 有 额外 的 监控 ， 如 果 没 有 ， 要 对 监控 服务 本 身 进行 “健康 检查 ”。 
如 果 数 据 中 心 或 者 云 的 某 个 区 域 宕 机 ， 导 致 其 上 的 整个 监控 系统 不 可 用 ， 那 么 不 论 监控 系 
统 本 身 做 得 多 好 或 多 稳健 ， 都 没有 意义 。 所 以 ， 为 每 个 关键 产品 和 服务 建立 外 部 监控 系 
统 ， 以 及 对 监控 服务 本 身 进 行 “ 健 康 检查 ”是 最 佳 实践 。 























数据 库 可 用 性 监控 样 例 
下 面 是 衡量 数据 库 是 否 可 用 的 几 种 方法 。 
。 对 应 用 程序 层 进行 “健康 检查 "， 查 询 所 有 前 端 数据 存储 。 
。 查询 每 个 数据 存储 系统 的 每 个 分 区 。 
。 监控 可 能 出 现 的 容量 问题 
一 磁盘 容量 ， 
- 数据 库 连 接 数 。 
。 抓 取 错误 日 志 : 
- 数据 库 重 启 
- 数据 损坏 。 




















4.5.3 ”用户 受 影响 了 吗 
监测 到 服务 还 在 工作 ， 这 很 好 。 


但 是 ， 如 果 服 务 的 延 时 是 正常 情况 的 两 倍 或 者 三 倍 ， 又 或 者 10% 的 请 求 出 错 了 而 没有 触发 
“健康 检查 ”， 访 如何 处 理 呢 ? 如 果 数 据 库 不 可 写 但 依然 可 读 呢 ? 或 者 副本 出 现 延 时， 导致 
大 部 分 写 操作 挂 起 呢 ? 如 果 RAID 阵列 因 丢 失 了 一 个 卷 (volume) 而 以 降级 模式 运行 ， 或 
者 正在 建 索 引 ， 又 或 是 当前 出 现 热点 数据 ， 正 在 写 同一 行 呢 ? 























这 正 是 系统 工程 特别 是 数据 库 工程 的 有 趣 之 处 。 系 统 可 能 发 生 各 种 故障 ， 而 我 们 可 能 事先 
只 能 想到 一 小 部 分 。 





这 也 是 逐渐 建立 详尽 且 高 层次 的 服务 健康 状况 度量 指标 的 原因 。 这 些 指 标 包括 “健康 检 
查 ”、 错 误 率 、 延 时 等 所 有 对 用 户 造 成 实质 性 影响 的 情况 。 然 后 呢 ?” 先 去 干 点 别 的 ， 然 后 
看 什么 情况 下 服务 会 中 断 。 

正如 第 3 章 所 述 ， 事先 猜想 哪些 情况 下 服务 不 可 用 用 处 不 大 。 既 然 尚 未 得 到 数据 ， 不 如 去 
构建 其 他 东西 ， 当 服务 的 某 些 方面 出 现 异常 后 再 研究 。 


前 面 介绍 了 初始 方法 和 演进 方法 ， 下 面 重 点 讨论 数据 库 可 靠 性 工程 师 应 该 测量 哪些 数据 。 


4.6 度量 应 用 程序 
首先 度量 应 用 程序 。 尽 管 大 部 分 问题 能 从 数据 存储 层 度量 ， 但 用 户 或 者 应 用 程序 行为 的 变 


化 是 首要 指标 。 通 过 工程 师 的 应 用 程序 度量 和 应 用 程序 性 能 管理 解决 方案 Cs Relic 
和 AppPynamics) ， 可 以 为 组 织 中 的 每 个 人 获取 大 量 数据 。 


应 该 已 经 度量 并 在 日 志 中 记录 了 某 个 页 面 或 者 API 的 所 有 请 求 和 响应 。 
。 应 该 也 对 所 有 对 外 服务 都 做 了 上 述 度量 ， 对 外 服务 包括 数据 库 、 搜 索索 引 和 缓存 。 
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。 对 于 任何 任务 或 者 独立 的 工作 流 ， 都 应 该 以 相似 的 方式 实施 监控 。 
与 数据 库 、 缓 存 和 其 他 数据 存储 进行 交互 的 可 复 用 代码 (例如 方法 或 函数 )， 也 应 进行 
类 似 的 度量 。 

。 监控 每 个 终端 、 页 面 或 者 函数 /方法 调用 数据 库 的 次 数 。 














追踪 每 个 操作 的 数据 访问 代码 (比如 SQL 调用)， 以 便 快 速 地 和 数据 库 中 详细 的 查询 日 志 
相互 参考 ; 但 对 于 ORM (object-relational mapping， 对 象 关系 映射 ) 而 言 这 是 一 个 挑战 ， 
因为 该 系统 中 SQL 是 动态 生成 的 。 





SQL 注释 

当 对 SQL 调 优 时 ， 将 数据 库 中 运行 的 SQL 语句 和 调用 该 语句 的 代码 位 置 对 
应 起 来 很 困难 。 许 多 数据 库 引 区 可 以 添加 注释 ， 这 些 注 释 会 在 数据 库 查询 日 
志 中 打印 出 来 ， 这 是 记录 代码 位 置 的 好 地 方 。 


























4.6.1 分 布 式 追 踪 

追踪 从 应 用 程序 到 数据 存储 层 每 个 阶段 的 性 能 ， 对 于 解决 很 难 捕捉 到 的 长 尾 延 时 间 题 非常 
重要 。 像 New Relic 或 Zipkin 等 开源 解决 方案 ， 可 以 实现 从 应 用 程序 调用 到 外 部 服务 〈 比 
如 数据 库 ) 的 分 布 式 追踪 。 理 想 情 况 下 ， 从 应 用 程序 到 数据 存储 的 完整 事务 追踪 ， 应 该 掌 
所 每 个 外 部 服务 调用 的 耗 时 ， 而 不 仅仅 是 数据 库 查询 的 耗 时 。 
































数据 库 的 追踪 完全 可 视 化 之 后 ， 将 成 为 培训 软件 工程 师 以 及 培养 独立 精神 的 有 力 工具 。 
你 不 需要 告诉 他 们 关键 点 在 哪儿 ， 他 们 可 以 自己 获取 该 信息 。 就 如 同 Last Pickle 公司 的 
Aaron Morton 在 演讲 中 谈 到 的 :“ 用 Zipkin 替代 Cassandra 的 追踪 功能 。” 





事先 预测 哪些 工具 会 带 来 这 种 积极 的 文化 转变 基本 上 是 不 可 能 的 ， 但 是 我 从 
Git 及 其 pull request 实践 ， 以 及 稳定 的 master 分 支 中 看 到 了 这 种 转变 ， 也 从 
Grafana、Kibana 以 及 Zipkin 中 看 到 了 这 种 转变 。 


更 多 论述 ， 可 以 参阅 Last Pickle 的 博客 。 





很 多 组 件 会 进行 端 到 端的 调用 。 数 据 库 可 靠 性 工程 师 需要 了 解 的 组 件 包括 但 不 限于 以 下 
几 类 : 


。 和 数据 库 或 者 数据 库 代 理 服务 器 建立 连接 ; 
将 一 个 连接 加 入 数据 库 连 接 凶 队列 中 ， 
将 度量 值 或 事件 加 入 消息 或 队列 服务 中 ， 

。 通过 集中 式 UUID 服务 创建 用 户 ID， 

。 基于 某 个 变量 (比如 用 户 ID) 选择 分 片 ; 
。 在 缓存 层 进 行 查找 、 校 验 和 缓存 ; 
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。 在 应 用 程序 层 进行 压缩 或 加 密 ， 
。 在 搜索 层 进行 查询 。 











传统 SQL 分 析 
从 事 咨 询 工 作 的 时 候 ， 我 ( 莱 思 ) 经 常 碰 到 服务 没有 监控 的 情形 ， 既 没有 应 用 程序 层 
性 能 监控 ,也 没有 数据 库 监 控 。 我 总 是 要 调查 TCP 或 收集 SQL 的 日 志 ， 以 便 创 建 数 
据 库 的 视图 。 然 后 ， 我 会 列 出 需要 优化 的 SQL 优先 级 列表 ， 并 反馈 给 软件 工程 师 ， 他 
们 可 能 并 不 知道 问题 代码 在 哪儿 。 寻 找 问题 代码 可 能 会 花费 一 周 甚至 更 长 时 间 。 


数据 库 可 靠 性 工程 师 有 很 多 机 会 和 软件 工程 师 一 起 工作 ， 并 确保 所 有 类 、 方 法 、 函 数 
以 及 任务 都 和 调用 的 SQL 做 了 映射 。 当 软件 工程 师 和 数据 库 可 靠 性 工程 师 使 用 相同 的 
工具 时 ， 数 据 库 可 靠 性 工程 师 可 以 指出 问题 的 关键 之 处 ， 很 快 软件 工程 师 就 能 独 当 一 
面 了 。 














如 果 一 个 事务 有 性 能 “预算 "， 并 且 已 知 延 时 需求 ， 那 么 建议 各 组 件 的 负责 人 以 团队 合作 
的 方式 开展 工作 ， 以 便 找到 相应 关键 点 ， 并 通过 适当 的 投入 和 妥协 来 达到 目的 。 


4.6.2 ”事件 与 日 志 
应 该 收集 并 保存 应 用 程序 的 所 有 日 志 ， 包 括 栈 追 踪 ， 这 是 不 言 自明 的 。 此 外 ， 还 有 许多 非 
常 有 用 的 事件 可 以 发 送 到 运 维 可 见 性 平台 ， 例 如 : 











。 部 署 代码 ; 
。 部 署 时 间 ， 
。 部 署 过 程 中 出 现 的 错误 。 


应 用 程序 监控 是 至 关 重 要 的 第 一 步 ， 从 用 户 的 角度 观察 行为 ， 并 且 和 延 时 SLO 直接 相关 。 
这 提供 了 服务 故障 或 者 降级 的 线索 。 下 面 介绍 有 助 于 分 析 根 本 原因 和 建立 预防 措施 的 支撑 
数据 : 主机 数据 。 


4.7 ”度量 服务 器 或 实例 


数据 库 实例 在 独立 主机 中 运行 ， 主 机 可 以 是 物理 机 或 虚拟 机 。 可 以 从 主机 绪 取 关于 操作 系 
统 和 数据 库 运 行 时 分 配 的 物理 资源 的 所 有 数据 。 尽 管 这 些 数据 和 具体 的 应 用 程序 / 服务 不 
直接 相关 ， 但 在 分 析 应 用 程序 层 延 时 或 者 错误 时 ， 这 些 数据 是 有 用 的 。 

当 使 用 这 些 数据 分 析 应 用 程序 异常 时 ， 目 的 是 发 现 资源 被 过 度 使 用 或 未 充分 使 用 、 资 源 饱 和 
度 以 及 错误 等 ( 即 Brendan Gregg 所 定义 的 USE 方法 )。 这 些 数 据 对 于 预 估 容 量 增长 和 性 能 
优化 都 很 重要 。 认 清 瓶 项 和 约束 条 件 ， 有 利于 对 优化 工作 排列 优先 级 以 产 出 最 大 价值 。 
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分 布 式 系统 聚合 
请 记 住 ， 单 个 主机 的 数据 只 








源 使 用 率 、 资 源 饱 和 度 以 及 错误 。 


用 于 判断 该 主机 是 否 健康 ， 
则 需要 从 集群 中 将 其 移 除 。 相 反 ， 要 从 执行 相同 功 全 
换言之 ， 
么 更 应 关注 资源 池 的 总 体 使 用 情况 、 当 前 的 等 待 时 








如 果 表 明 主 机 有 问题 ， 
E 的 主机 池 的 角度 考虑 资 
如 果 有 20 台 Cassandra 主机 ， 那 
间 以 及 错误 情况 。 如 果 只 














有 某 台 主机 出 错 ， 那 么 需要 从 集群 中 移 除 它 并 用 新 的 主机 替代 。 








对 Linux 操作 系统 而 言 ， 需 要 监控 的 资源 包括 如 下 几 项 : 





除了 监控 硬件 资源 ， 操 作 系统 


如 有 果 不 了 解 这 些 概 念 ， 
详细 介绍 了 如 何 监控 这 些 数据 。 他 为 了 探究 


CPU ; 
内 存 ; 

网 络 接口 ; 
存储 的 IO， 





CPU 互联 通道 ， 
内 存 互联 通道 ; 
存储 互联 通道 。 


了 解 所 用 的 操作 系统 


关于 深入 研究 操作 系统 特性 的 重要 性 ， 再 怎 
库 专 家 将 其 视 为 系统 管理 员 的 职责 ， 




















将 内 存 都 用 于 Page Cache， 


解 不 深 ， 这 一 点 并 不 是 显而易见 的 。 


还 有 一 些 点 需要 追踪 : 


内 核 互 斥 量 ; 
用 户 互 斥 量 ， 
任务 数 ， 

文件 描述 符 数量 。 








所 以 对 于 监控 内 存 使 用 而 言 
的 ， 而 每 秒 执行 的 Pagescan 数量 更 有 意义 。 


建议 阅读 Brendan Gregg 的 博客 文章 “The USE Method  。 
这 些 数据 付出 了 大 量 的 时 间 和 精力 。 


怎么 强调 都 不 为 过 。 尽 管 很 多 数据 


a 统 之 间 的 联 
系 太 紧 密 了 ， 不 得 不 深入 研究 。 关 于 这 一 点 ， 


一 个 很 好 的 例子 是 ，Linux 会 
“可 用 内 存 ” 是 无 用 
如 果 对 Linux 的 内 存 管理 原理 了 











这 篇 文章 








邮 


事件 和 日 志 

不 止 度量 值 ， 应 该 把 所 有 日 志 发 送 到 合适 的 事件 处 理 系统 (例如 RSyslog 或 Logstash) 中 。 
这 些 日 志 包 括 内 核 、 定 时 任务 (cron)、 身 份 验证 、 邮 件 和 普通 消息 日 志 ， 以 及 特定 于 进程 
或 应 用 程序 (例如 MySQL 或 nginx) 的 日 志 。 





配置 管理 系统 和 资源 部 署 流程 都 应 该 向 运 维 可 见 性 平台 注册 关键 事件 ， 可 以 从 如 下 事件 着 手 : 


下 线 某 个 主机 ， 
配置 变更 ， 
主机 重启 ; 
服务 重启 ， 
主机 崩溃 ， 
服务 崩溃 。 





云 和 虚拟 化 系统 
对 于 这 些 环境 ， 有 一 些 人 额外 的 考量 项 。 


成 本 | 使 用 这 些 环境 是 按 需 付费 的 ， 而 不 是 像 数 据 中心 环 境 那 样 预付 费 。 要 选择 划算 
的 方式 。 性 价 比 很 重要 。 


监控 CPU 时 ， 需 要 监控 “steal time”， 这 是 虚拟 CPU 等 待 实体 CPU 的 时 间 ， 其 间 实 
体 CPU 用 于 他 处 。 较 高 的 steal time (10% 或 者 持续 一 段 时 间 ) 意味 着 环境 中 有 “ 吵 
阅 的 邻居 ”。 如 果 所 有 主机 上 的 steal time 值 都 较 大 ， 很 可 能 是 你 自己 的 问题 ， 你 可 能 
需要 扩容 或 重新 平衡 。 

如 果 只 有 一 台 或 者 少数 主机 上 的 steal time 较 高 ， 这 意味 着 其 他 租户 正在 占用 资源 。 此 
时 最 好 停 挤 这 台 讶 拟 机 ， 另 启 一 台 庶 拟 机 进行 替换 。 将 新 虚拟 机 部 署 在 其 他 地 方 可 以 
获得 更 好 的 性 能 。 











把 这 些 集成 到 运 维 可 见 性 平台 ， 有 助 于 理解 主机 和 操作 系统 层面 正在 发 生 什 么 。 下 面 研 究 
数据 库 本 身 。 


旦 米 \ 
4.8 度量 数据 存储 
对 于 数据 库 ， 需 要 监控 和 追踪 什么 ? 为 什么 ? 这 些 问 题 取决 于 有 具体 的 数据 存储 种 类 。 下 面 重 
点 探讨 通用 领域 ,但 是 会 足够 详细 ， 以 便 帮 助 你 追踪 自己 的 系统 。 主 要 关注 如 下 方面 : 

数据 存储 连接 层 ; 

内 部 数据 库 可 见 性 ; 

















运 维 可 见 性 | 55 


。 数据 库 对 象 ， 
。 数据 库 调用 /查询 。 


看 依次 介绍 各 个 方面 ， 首 先是 数据 存储 连接 层 。 





下 


4.9 数据 存储 连接 层 




















区 分 到 代理 花费 的 时 间 与 从 代理 到 后 端 花费 的 时 间 。 当 Zipkin 这 类 工具 不 可 用 时 ， 可 以 使 
用 tcpdump 和 Tshark/Wireshark 临时 采样 。 可 以 进行 自动 化 采样 ， 或 者 手动 临时 采样 。 





如 果 应 用 程序 和 数据 库 之 间 的 连接 有 延 时 或 出 错 ， 就 需要 额外 的 度量 值 来 帮助 找 出 原因 。 
推荐 使 用 前 面 提 到 的 USE 方法 。 下 面 介 绍 其 他 有 用 的 度量 值 。 























4.9.1 利用 率 

数据 库 支 持 的 连接 数 是 有 限 的， 很 多 地 方 可 能 限制 数据 库 的 最 大 连接 数 。 数 据 库 配置 参数 
直接 限制 数据 库 可 接受 的 实际 连接 数 ， 设 置 上 限 则 在 避免 主机 过 载 。 追 踪 连 接 数 上 限 和 实 
际 使 用 的 连接 数 非常 重要 ， 因 为 上 限 可 能 是 偏 低 的 默认 值 。 











连接 也 会 用 到 操作 系统 级 别 的 资源 ， 例 如 PostgreSQL 为 每 个 连接 启动 一 个 UNIX 进程 ， 
MySQL、Cassandra 和 MongoDB 为 每 个 连接 使 用 一 个 线程 。 它 们 还 会 用 到 内 存 和 文件 描 
述 符 。 理 解 连接 的 行为 需要 考虑 很 多 方面 。 








。 连接 数 上 限 和 连接 计数 。 

。 连接 的 状态 (工作 中 、 睡 眠 中 、 取 消 等 )。 
内 核 级 别 最 大 文件 句柄 的 利用 率 。 
内 核 级 别 最 大 进程 数 的 利用 率 。 

。 内 存 利用 率 。 

。 线程 池 相关 度量 值 ， 例 如 MySQL 表 缓 存 或 MongoDB 的 线程 池 利 用 率 。 
网 络 吞 吐 量 的 利用 率 。 














这 些 数据 可 以 表明 连接 层 的 容量 或 利用 率 是 否 存 在 瓶 贷 。 如 果 利 用 率 是 100%， 并 且 饱 和 
度 也 很 高 ， 就 是 一 个 很 好 的 指标 ， 但 是 ， 利 用 率 和 饱和 度 都 较 低 也 可 能 表示 某 处 有 瓶颈 。 
资源 利用 率 较 高 但 是 未 完全 利用 通常 也 会 影响 乃至 导致 延 时 。 

















4.9.2 ”饱和 度 
饱和 度 和 利用 率 搭配 使 用 通常 更 有 用 。 当 出 现 大 量 等 待 资源 的 情况 且 资 源 利 用 率 为 100% 
时 ， 就 表明 容量 明显 有 问题 。 然 而 ， 当 出 现 等 待 /饱和 但 资源 未 充分 利用 时 ， 可 能 别处 出 
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现 了 瓶颈 。 通 过 度量 以 下 值 可 以 得 到 饱和 度 : 


。 TCP 连接 的 backlog; 
数据 库 连 接 队 列 ， 例 如 MySQL 的 back log; 
连接 超时 错误 ， 
等 待 连接 池 中 的 线程 ， 
内 存 交 换 ，; 
加 锁 的 数据 库 进 程 。 
队列 长 度 和 等 待 超时 对 于 理解 饱和 度 非常 重要 。 连 接 或 者 进程 出 现 等 待 是 存在 潜在 瓶颈 的 
征兆 。 











4.9.3 ”错误 

借助 利用 率 和 饱和 度 ， 可 以 判断 容量 限制 和 瓶颈 是 否 正在 影响 数据 库 连 接 层 的 延 时 。 这 对 
于 判断 是 否 需要 增加 资源 、 删 除 人 为 配置 的 限制 或 调整 架构 ， 是 非常 重要 的 信息 。 应 该 监 
控 错误 ， 识 别 并 消除 故障 或 配置 问题 。 可 以 通过 以 下 方式 捕获 错误 。 


当 数 据 库 层 发 生 故 障 时 ， 数 据 库 日 志 会 提供 错误 码 。 有 时 会 配置 不 同 的 日 志 级 别 ， 以 确 
保 能 够 发 现 连接 错误 。 但 是 需要 注意 ， 日 志 不 宜 过 多 ， 尤 其 在 日 志 跟 数据 库 共 享 存储 和 
LO 资源 时 。 

应 用 程序 和 代理 的 日 志 也 可 以 提供 丰富 的 错误 信息 。 

应 该 利用 前 文 提 到 的 主机 错误 。 















































错误 包括 网 络 错误 、 连 接 超时 、 身 份 验证 错误 和 连接 终止 等 。 这 些 信息 可 以 指明 各 种 错 
误 : 表 损 坏 、 依 赖 DNS、 死 锁 、 验 证 变更 等 。 








利用 应 用 程序 的 延 时 /错误 度量 值 ， 追 踪 并 适当 地 遥测 利用 率 、 饱 和 度 和 特定 错误 状态 ， 
这 些 信息 足以 用 来 识别 数据 库 连 接 层 的 降级 和 中 断 状态 。 下 面 考虑 连接 内 部 应 该 度量 什么 
指标 。 


























排查 PostgreSQL 的 连接 速度 问题 

Instagram 是 选用 PostgreSQL 作为 关系 型 数据 库 的 公司 之 一 。 它 选用 连接 池 组 件 
PGBouncer 来 增加 数据 库 的 应 用 程序 连接 数 。 这 是 一 种 经 过 验证 的 可 扩展 的 、 增 加 数 
据 存 储 连接 数 的 方法 。 对 于 每 个 连接 ，PostgreSQL 都 会 创建 一 个 UNIX 进程 ， 所 以 新 
建 连接 较 慢 且 开 销 较 大 。 

Instagram 使 用 的 是 psycopg2 (Python 驱动 )， 之 前 autocommit 参数 采用 默认 值 FALSE， 
这 意味 着 即使 是 只 读 查 询 ， 也 会 发 送 BEGIN 和 COMMIT 指令 。 在 把 autocommit 改 成 TRUE 
后 ， 查 询 延 时 减少 了 ， 连 接 池 中 排队 等 待 的 现象 也 有 所 缓解 。 
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当 连 接 池 利 用 率 达 到 100% 时 ,应 用 程序 的 廷 时 会 增加 ， 最 终 导 致 等待 连 接 的 请 求 增加 。 
查看 连接 层 的 度量 值 和 PGBouncer 的 连接 池 监 控 ， 就 会 发 现 等 待 连接 池 现 象 的 增加 是 因 
为 饱和 ， 并 且 大 多 数 时 间 活 跃 的 连接 满 奥 荷 。 如 果 没 有 其 他 度量 值 清楚 地 表明 利用 率 / 
饱和 度 过 高 和 出 错 ， 就 应 该 查看 连接 内 部 发 生 了 什么 导致 查询 变 慢 ， 梢 后 会 讨论 。 


4.10 数据 库 内 部 可 见 性 


查看 数据 库 内 部 ， 就 会 发 现 动态 部 分 、 度 量 值 的 数量 和 整体 复杂 性 都 大 大 增加 了 ， 更 接近 
现实 了 。 重 申 一 下 ， 要 牢记 USE 方法 。 我 们 的 目标 是 理解 可 能 会 影响 延 时 、 限 制 请 求 或 导 
致 错误 的 瓶颈 。 














重要 的 是 能 从 单机 视角 考虑 这 些 问 题 ， 并 按照 角色 聚合 。 有 些 数据 库 ， 例 如 MySQL、 
PostgreSQL、Elasticsearch 以 及 MongoDB， 有 主 /副本 角色 之 分 。Cassandra 和 Riak 没有 
特别 划分 角色 ， 但 是 它们 通常 按照 region 或 者 zone 分 布 ， 按 照 这 些 维 度 聚 合 也 很 重要 。 


4.10.1 吞吐 量 和 延 时 度量 值 

数据 存储 中 正 进 行 着 多 少 个 和 多 少 种 操作 ? 这 些 数据 是 数据 库 活 动 的 一 个 非常 好 的 高 层 视 
图 。 当 软件 工程 师 语 加 新 功能 时 ， 这 些 工作 负载 将 发 生变 化 ， 并 表明 负载 如 何 变化 。 为 了 
解 这 些 不 断 变化 的 工作 负载 而 收集 的 一 些 度量 值 如 下 。 














一 回 深 ; 
- DDL 语句 ， 
其 他 管理 任 务 o 


























这 里 讨论 的 延 时 仅 指 聚合 的 平均 延 时 。 后 文 会 进一步 讨论 更 细 粒 度 、 更 详细 的 查询 监 
因此 ， 从 这 些 数据 中 去 掉 异 常 值 之 后 ， 留 下 来 的 仅仅 是 基本 负载 信息 。 


4.10.2 提交 、 重 做 和 日 志 


尽管 具体 的 实现 依赖 特定 数据 存储 ， 但 几乎 所 有 落 盘 都 包含 一 系列 IO 操作 。 在 MySQL 
的 InnoDB 存储 引擎 和 PostgreSQL 中 ， 写 操作 在 缓冲 池 (内 存 ) 中 被 改变 ， 操 作 被 记录 在 
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重 做 日 志 中 (在 PostgreSQL 中 是 预 写 日 志 )。 在 维护 检查 点 (恢复 时 需要 用 到 ) 时 ， 这 些 

数据 由 后 台 进 程 负责 刷新 到 磁盘 。 在 Cassandra 中 ， 数 据 存储 在 memtable (内 存 ) 中 , 但 
会 附加 一 条 提交 日 志 。memtable 会 周期 性 地 刷新 到 SSTable (sorted-string table， 排 序 字 

符 串 表 ) 格式 的 文件 。 此 外 ， 会 周期 性 地 整理 SSTable 文件 。 可 能 需要 监控 的 度量 值 包括 : 











。 脏 缓 冲 (MySQL); 

。 检查 点 年 龄 (MySQL ) ， 

。 正在 等 待 和 已 经 完成 的 整理 任务 (Cassandra) ; 
。 被 追踪 的 脏 字 节 (MongoDB ) ; 

。 pi (MongoDB ) ; 

。 log_checkpoints 参数 配置 (PostgreSQL ) ; 

。 pg_stat_bgwriter 视图 (PostgreSQL ) 。 






































所 有 设置 检查 点 、 落 盘 和 整理 的 操作 都 会 对 数据 库 活动 的 性 能 产生 重大 影响 。 有 了 时 这 个 影 
响 会 导致 TO 压力 变 大 ， 有 了 时 在 执行 重大 操作 时 可 能 停止 所 有 写 操 作 。 收 集 此 类 度量 值 可 
以 调 优 特定 配置 ， 最 大 限度 减轻 这 些 操 作 发 生 时 带 来 的 影响 。 因 此 ， 在 这 种 情况 下 ， 当 发 
现 延 时 增加 并 且 落 盘 相关 度量 值 显示 后 台 活 动 过 度 时 ， 就 意味 着 要 调 优 这 些 点 了 。 


4.10.3 复制 状态 
在 多 个 节点 间 复 制 数据 ， mei, 复制 是 提升 
可 用 性 和 读 性 能 的 基石 ， 也 是 从 灾难 中 恢复 和 保证 数据 安全 的 一 部 分 。 复 制 共 有 3 种 状 
态 ， 人 数据 并 监控 ， 它们 可 能 处 于 不 健康 的 状态 ， 并 且 会 导致 更 大 的 问 
题 。 第 10 章 将 详细 讨论 复制 。 


第 1 种 故障 状态 是 复制 延迟 。 有 时 将 修改 应 用 于 其 他 节点 可 能 会 导致 运行 变 慢 。 这 可 能 是 
由 网 络 饱 和 、 单 线程 来 不 及 apply 以 及 其 他 许多 原因 导致 的 。 有 时 ， 在 活动 高 峰 期 ， 会 项 
复制 落后 导致 副本 上 的 数据 落后 数 小 时 。 这 很 危险 ， 因 为 提供 的 可 能 是 旧 数据 。 如 有 果 将 该 
副本 用 作 故 障 转移 ， 可 能 会 丢失 数据 。 


大 多 数 数据 库 系统 提供 可 以 轻松 追踪 复制 延迟 的 度量 值 ， 显 示 主 服务 右上 的 时 间 惟 和 副本 
服务 器 上 的 时 间 改 之 间 的 差异 。 在 类 似 于 Cassandra 这 种 使 用 最 终 一 致 性 模型 的 系统 中 ， 
当 某 些 副本 不 可 用 后 ， 应 该 检查 用 于 同步 的 操作 是 否 堆积 ， 这 种 机 制 在 Cassandra 中 叫 
Hinted Handoff。 



























































第 2 种 故障 状态 是 复制 机 制 失灵 。 在 这 种 情况 下 ， 负 责 数据 复制 的 进程 因为 某 些 错误 而 停 
止 工作 。 解 决 该 问题 需要 合适 的 监控 以 促进 快速 响应 和 修复 错误 ， 并 且 人 允许 继续 复制 和 跟 
上 进度 。 在 这 种 情况 下 ， 可 以 监控 复制 线程 的 状态 。 


最 后 一 种 故障 状态 最 难处 理 : 复制 漂移 (replication drift)。 在 这 种 情况 下 ， 数 据 没 有 同步 ， 
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导致 复制 过 程 不 可 用 并 有 湾 在 的 危险 。 识 别 大 规模 数据 集 的 复制 漂移 颇具 挑战 性 ， 并 且 与 
负载 和 存储 的 数据 类 型 有 关 。 




















如 果 数据 相对 不 变 并 且 写 和 人 / 读 取 操 作 是 标准 的 ， 那 么 可 以 在 副本 间 进 行 校 验 和 检查 ， 比 
较 它们 是 否 一 致 。 可 以 通过 滚动 的 方式 在 复制 之 后 进行 检查 ， 以 便 在 CPU 相对 空闲 的 数 
据 库 主机 上 进行 安全 检查 。 然 而 ， 如 果 有 大 量 修改 操作 ， 将 更 具 挑战 性 ， 只 能 反复 进行 数 
据 校 验 和 检查 (其 中 有 的 数据 可 能 已 经 检查 过 了 ) 或 者 偶尔 进行 采样 


4.10.4 内 存 结构 

数据 存储 在 常规 操作 中 维护 着 很 多 内 存 结构 。 在 数据 库 中 最 常见 的 是 数据 缓存 ， 尽 管 它 可 
能 有 很 多 名 称 ， 但 目标 都 是 将 频繁 访问 的 数据 保存 在 内 存 中 ， 而 不 是 磁盘 上 。 其 他 类 似 的 
缓存 有 : 已 解析 的 SQL 缓存 、 连 接 缓存 、 查 询 结果 缓存 等 。 


监控 这 些 结 构 的 典型 度量 值 如 下 。 


























口 利用 率 
在 时 间 维 度 上 分 配给 缓存 使 用 的 总 空间 。 


口 搅动 

需要 缓存 其 他 对 象 ， 或 者 因为 底层 数据 失效 导致 缓存 对 象 被 删除 的 频率 。 
口 命中 率 
使 用 缓存 数据 的 频率 ， 这 有 助 于 提升 性 能 。 


口 并 发 
这 些 结构 有 各 自 的 串 形 化 方法 ， 比 如 互 斥 量 ， 这 可 能 会 成 为 瓶 央 。 了 解 这 些 组 件 的 饱和 
度 也 有 助 于 优化 。 














有 些 系统 (比如 Cassandra) 使 用 JVM 管理 内 存 ， 监 控 整 个 内 存 的 新 区 域 。 在 这 样 的 环境 
中 ， 垃 圾 回收 和 堆 空间 的 使 用 也 非常 重要 。 


4.10.5” 锁 与 并 发 

关系 型 数据 库 通常 使 用 锁 来 协调 会 话 间 的 并 发 访问 。 在 进行 读 写 操作 时 ， 加 锁 能 避免 其 他 
进程 修改 相应 的 数据 。 尽 管 这 非常 有 用 ,但 进程 等 待 会 导致 延 时 。 某 些 情 况 下 ， 进 程 会 因 
死 锁 而 超时 ， 除 了 回 滚 ,对 于 已 存在 的 锁 根本 没有 解决 办 法 。 第 11 章 会 详细 讨论 锁 实 现 。 
监控 锁 包括 监控 在 数据 存储 中 等 待 锁 的 时 间 。 可 以 将 其 看 作 关于 饱和 度 的 度量 值 。 较 长 的 
队列 意味 着 存在 应 用 程序 和 并 发 性 问题 或 者 底层 出 现 了 影响 延 时 的 问题 ， 持 有 锁 的 会 话 需 
要 更 长 的 时 间 才 能 完成 。 监 控 回 深 和 死 锁 同样 非常 重要 ， 因 为 这 是 应 用 程序 没有 将 锁 释 放 
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干净 而 导致 等 待 中 的 会 话 发 生 超时 和 回 滚 的 另 一 个 指标 。 回 篇 是 一 种 正常 的 事务 行为 ， 但 
是 它们 通常 是 某 些 底层 事件 影响 了 事务 的 重要 指标 。 


如 前 所 述 ， 数 据 库 中 有 很 多 元 素 作为 同步 原 语 ， 用 于 安全 地 管理 并 发 ， 它 们 通常 是 互 斥 量 
或 者 信号 量 。 互 斥 锁 是 一 种 同步 对 资源 (如 缓存 项 ) 的 访问 的 加 锁 机 制 。 只 有 一 个 任务 可 
以 获得 互 斥 量 ， 这 意味 着 互 斥 量 有 “所 有 权 ” 的 概念 ， 并 且 只 有 锁 的 持 有 者 才 可 以 释放 锁 
( 互 斥 锁 ) 。 这 可 以 防止 数据 损坏 。 

信号 量 限 制 同一 时 刻 某 资源 的 使 用 者 数量 。 线 程 可 以 请 求 访问 资源 (减少 信号 量 )， 并且 
可 以 发 出 信号 ， 表明 资源 使 用 完毕 (增加 信号 量 )。 使 用 互 斥 量 /信号 量 监 控 MySQL 的 
InnoDB 存储 引擎 的 实例 如 表 4-1 所 示 。 












































表 4-1: InnoDB 信 号 量 活动 度量 值 


















































































































































































































































名 称 描 述 

互 斥 量 操作 系统 等 待 ( 增 量 ) InnoDB 中 信号 量 / 互 斥 量 等 待 操作 系统 返回 的 数量 

互 斥 量 轮 次 ( 增 量 ) 内 部 同步 数组 中 InnoDB 中 信号 量 / 互 斥 量 自 旋 的 轮 次 

互 斥 量 自 旋 等 待 ( 增 量 ) 内 部 同步 数组 中 InnoDB 中 信和 号 量 / 互 斥 量 自 旋 等 待 的 数量 

操作 系统 预 留 统计 ( 增 量 ) InnoDB 中 信号 量 / 互 斥 量 的 等 待 添加 到 内 部 同步 数组 

操作 系统 通知 统计 ( 增 量 ) 内 部 同步 数组 中 InnoDB 中 信号 量 / 互 斥 量 的 通知 统计 

排他 锁 操 作 系 统 等 待 〈 增 量 ) InnoDB 中 排他 信号 量 ( 写 ) 等 待 操作 系统 返回 的 数量 

排他 锁 自 旋 的 轮 次 ( 增 量 ) InnoDB 同步 数组 中 排他 信号 量 ( 写 ) 自 旋 的 轮 次 

排他 锁 自 旋 ( 增 量 ) InnoDB 同步 数组 中 处 于 等 待 状态 的 排他 自 旋 信 号 量 ( 写 ) 数量 

共享 锁 操 作 系统 等 待 ( 增 量 ) InnoDB 中 共享 信号 量 ( 读 ) 等 待 操作 系统 返回 的 数量 

共享 锁 自 旋 的 轮 次 ( 增 量 ) InnoDB 同步 数组 中 共享 信号 量 ( 读 ) 自 旋 的 轮 次 

共享 锁 自 旋 ( 增 量 ) InnoDB 同步 数组 中 处 于 等 待 状态 的 共享 自 旋 信 号 量 ( 读 ) 数量 

每 次 互 斥 量 等 待 中 自 旋 ( 增 量 ) InnoDB 信号 量 / 互 斥 量 自 旋 轮 次 跟 互 斥 量 等 待 内 部 同步 数组 而 自 旋 的 
比例 

每 次 排他 锁 等 待 中 自 旋 ( 增 量 ) ”InnoDB 排他 信号 量 / 互 斥 量 ( 写 ) 自 旋 轮 次 跟 互 斥 量 等 待 内 部 同步 数 
组 而 自 旋 的 比例 

每 次 共享 锁 等 待 中 自 旋 ( 增 量 ) ”InnoDB 共享 信号 量 / 互 斥 量 ( 读 ) 自 旋 轮 次 跟 互 斥 量 等 待 内 部 同步 数 
组 而 自 旋 的 比例 

这 些 值 的 增长 表明 并 发 访问 数据 存储 特定 区 域 的 代码 达到 并 发 国 值 。 可 以 通过 配置 调 优 来 








SEE 


坚决 这 个 问题 ， 或 者 通过 水 平 扩 展 使 数据 存储 足以 应 对 持续 的 并 发 请 求 ， 以 便 满足 业务 流 
的 需求 。 

当 到 达 扩 展 的 临界 点 时 ， 锁 和 并 发 甚至 会 使 性 能 较 高 的 查询 变 得 很 慢 。 在 生产 环境 和 负载 
测试 中 ， 追 踪 和 监控 这 些 度量 值 可 以 了 解 当 前 数据 库 软 件 的 上 限 ， 以 此 确定 如 何 优 化 应 用 
程序 ， 以 应 对 来 自用 户 的 大 量 并 发 请 求 。 





二 
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4.11 ”数据库 对 象 


了 解 所 使 用 的 数据 库 及 其 存储 数据 的 方式 非常 重要 。 简 单 来 说 ， 就 是 了 解 每 个 数据 库 对 象 
及 其 关联 的 键 /索引 占用 存储 空间 的 大 小 。 就 像 对 于 文件 系统 存储 一 样 ， 了 人 解 增长 率 以 及 
何 时 达到 上 限 与 了 解 存储 的 当前 使 用 情况 同样 重要 。 


除了 了 解 存储 和 增长 ， 监 控 关 键 数据 的 分 布 也 有 帮助 。 例 如 了 解 上 界 、 下 界 、 平 均值 以 及 
数据 的 基数 有 助 于 了 解 索引 和 扫描 性 能 。 这 对 于 整数 数据 类 型 和 低 基 数字 符 数 据 类 型 特别 
重要 。 软 件 工程 师 可 以 利用 这 些 数据 优化 数据 类 型 和 索引 。 


如 有 果 已 使 用 键 范 围 或 列表 对 数据 集 进 行 了 分 片 ， 了 解数 据 分 布 状况 有 助 于 确保 每 个 节点 上 
的 输出 最 大 化 。 这 些 分 片 方法 可 能 会 出 现 热 点 ， 因 为 它们 其 至 没有 使 用 散 列 或 取 模 方法 来 
分 布 数据 。 认 识 到 这 一 点 后 ， 可 以 考虑 重新 平衡 或 禁 换 分 片 模型 。 


4.12 数据库 查询 


取决 于 所 用 数据 库 ， 实 际 的 数据 访问 和 操作 方式 可 能 是 高 度 仪表 化 的 ， 也 可 能 不 是 。 在 繁 
忙 的 系统 中 查询 大 量 数 据 (这 些 查 询 会 记录 过 多 日 志 )， 可 能 会 严重 影响 系统 的 延 时 和 可 用 
性 。 不 过 ， 这 些 日 志 是 很 有 价值 的 。 某 些 解决 方案 (例如 VividCortex 和 Circonus) 专注 于 
从 TCP 和 其 他 协议 获取 所 需 数据 ， 这 极 大 地 减轻 了 记录 查询 日 志 对 性 能 的 影响 。 其 他 方法 
包括 : 在 负载 较 少 的 副本 上 采样 、 仅 在 指定 时 间 段 内 打开 日 志和 仅 记 录 执 行 缓慢 的 语句 等 。 


无 论 如 何 ， 我 们 都 希望 尽 可 能 多 地 记录 数据 库 活动 的 性 能 和 利用 率 数据 。 这 包括 CPU 的 
消耗 和 1O， 读 取 或 写 入 的 行 数 ， 详 细 的 执行 时 间 和 等 待 时 间 ， 以 及 执行 计数 。 了 解 优化 
器 路 径 、 使 用 的 索引 ， 以 及 关于 连接 、 排 序 和 聚合 的 统计 信息 对 于 优化 也 很 关键 。 


4.13 ”数据 库 断言 和 事件 


数据 库 和 客户 端的 日 志 包 含 丰富 的 信息 ， 尤 其 是 断言 和 错误 。 这 些 日 志 能 提供 重要 的 数 
据 ， 而 且 这 些 数 据 无 法 通过 其 他 方式 进行 监控 ， 例 如 下 面 这 些 : 


。 尝试 连接 和 连接 失败 ， 

。 崩溃 时 的 警告 和 错误 信息 ， 

。 数据 库 重 启 ， 

。 配置 变更 ， 

。 死 锁 ; 

。 核心 转 储 和 栈 追 踪 。 

可 以 聚合 其 中 部 分 数据 ， 并 将 其 推送 到 度量 系统 中 。 还 应 该 追踪 其 他 事件 并 用 于 事件 关联 。 
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4.14 ”小 结 


本 章 深入 探讨 了 运 维 可 见 性 的 重要 性 ， 并 介绍 了 如 何 开始 构建 运 维 可 见 性 平台 ， 以 及 如 何 
构建 和 演进 运 维 可 见 性 架构 。 对 于 正在 构建 和 运行 的 系统 ， 你 永远 得 不 到 足够 的 信息 。 很 
快 你 就 会 发 现 构 建 观测 这 些 服务 的 系统 是 运 维 职责 的 一 部 分 。 它 们 类 似 于 其 他 基础 设施 组 
件 ， 需 要 得 到 充分 关注 。 
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第 5 章 


基础 议 施 工程 





本 章 开始 实现 应 用 程序 和 分 析 人 员 所 用 的 数据 库 集群 。 前 面 讨论 了 大 量 准 备 工作 : SLO、 
风险 分 析 以 及 运 维 可 见 性 。 接 下 来 的 两 章 将 讨论 设计 和 构建 对 应 环境 的 技术 和 模式 。 

本 章 主 要 讨论 数据 存储 依赖 的 各 种 主机 环境 ， 包 括 Serverless 和 DaaS (database as a service， 
数据 库 即 服务 )。 我 们 将 讨论 这 些 数据 存储 可 用 的 各 种 存储 选项 。 


5.1 主机 


如 前 所 述 ， 数 据 存 储 不 能 存在 于 真空 环境 中 ， 它 们 是 在 主机 上 运行 的 进程 。 数 据 库 的 主机 
通常 是 物理 服务 器 。 过 去 10 年 中 ， 选 项 增加 了 ， 出 现 了 虚拟 机 、 容 器 以 及 Serverless。 下 
硬 讨 论 每 个 选项 的 优 缺 点 ， 并 研究 一 些 具 体 的 实现 细 市 。 























5.1.1 物理 服务 器 

这 里 的 物理 服务 器 是 指 装 有 操作 系统 的 独立 主机 ， 专 门 用 于 运行 特定 服务 。 在 不 成 熟 的 
环境 中 ， 物 理 服务 器 在 流量 较 低 和 资源 较 富裕 的 条 件 下 运行 多 个 服务 。 数 据 库 可 靠 性 工 
程 师 首先 应 该 把 数据 存储 分 离 到 独 享 的 服务 器 中 。 数 据 存储 所 需 的 工作 负载 通常 对 CPU、 
RAM 和 存储 WO 有 较 高 要 求 。 有 些 应 用 程序 是 CPU 密集 型 或 者 IO 密集 型 的 ， 但 你 不 希 
望 它们 与 其 他 应 用 程序 竞争 资源 。 调 优 这 些 工 作 负 载 也 是 非常 具体 的 ， 因 此 需要 隔离 才能 
正确 完成 。 

当 在 独 享 的 物理 主机 上 运行 数据 库 时 ， 数 据 库 会 与 大 量 组件 交 互 ， 并 消耗 这 些 组 件 的 资 
源 。 稍 后 会 简单 介绍 这 些 组 件 。 方 便 起 见 ， 这 里 的 讨论 基于 Linux 或 UNIX 系统 。 尽 管 很 
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多 内 容 也 适用 于 Windows， 但 是 系统 之 间 的 区 别 较 大 ， 所 以 不 以 Windows 举例 。 


本 章 会 介绍 很 多 最 佳 实践 ， 以 展示 数据 库 可 靠 性 工程 师 如 何 运 用 所 掌握 的 操作 系统 和 硬件 
的 知识 ， 来 解决 数据 库 可 用 性 和 性 能 方面 的 问题 。 当 谈 到 抽象 的 虚拟 机 和 容器 时 ， 会 适时 
讲解 相关 知识 。 


5.1.2 系统 或 内 核 的 运 维 

数据 库 可 靠 性 工程 师 应 该 直接 和 软件 可 靠 性 工程 师 合 作 ， 以 定义 适合 数据 库 主机 的 内 核 配 
置 ， 这 应 该 成 为 与 数据 库 二 进 制 文件 和 相关 配置 一 起 自动 部 署 的 黄金 标准 。 大 多 数 DBMS 
(database management system， 数 据 库 管 理 系 统 ) 有 厂商 特定 的 要 求 和 推荐 配置 ， 故 应 对 其 
进行 评审 ， 确 认可 用 后 再 应 用 于 生产 环境 。 针 对 不 同 的 数据 库 类 型 ， 采 用 的 方法 也 有 较 大 
差异 ， 所 以 下 面 将 讨论 共同 的 关注 点 。 


1. 用 户 资源 的 限制 
相 比 普通 服务 器 ， 数 据 库 使 用 的 资源 数量 要 多 得 多 ， 包 括 文件 描述 符 、 信 号 量 和 用 户 进程 。 
































2. VO 调度 器 

操作 系统 通过 IO 调度 决定 将 块 级 别 IO 操作 提交 给 存储 卷 的 顺序 。 默 认 情况 下 ， 这 些 
调度 器 通常 假设 使 用 的 是 拥有 较 高 寻 道 延 时 的 旋转 磁盘 + ， 所 以 默认 使 用 电梯 调度 算法 
(elevator algorithm ) 。 该 算法 尝试 根据 访问 的 位 置 对 请 求 排 序 ， 以 尽量 缩短 寻 道 时 间 。 在 
Linux 中 ， 可 能 有 以 下 选项 ， 




















wtf@host:~$ cat /sys/block/sda/queue/scheduler 
[noop] anticipatory deadline cfq 


当 目 标 块 设备 是 带 有 控制 器 (可 以 优化 VO) 的 一 个 固态 硬盘 阵列 时 ，noop 调度 器 是 合适 
的 选择 。 每 个 IO 请求 被 同等 对 待 ， 因 为 固态 硬盘 的 寻 道 时 间 相 对 稳定 。deadline 调度 器 
通过 引入 截止 时 间 来 防止 饥饿 ， 并 优先 执行 读 操 作 ， 从 而 最 小 化 LO 延 时 。deadline 调度 
器 在 多 线程 、 高 并 发 环境 (例如 数据 库 负载 ) 中 性 能 更 高 。 


3. 内 存 分 配 和 碎片 

众所周知 ， 数 据 库 是 服务 器 所 运行 的 最 耗 内 存 的 应 用 程序 之 一 。 要 想 高 效 使 用 内 存 ， 需 要 
理解 内 存 是 如 何 分 配 和 管理 的 。 在 编译 数据 库 二 进 制 文件 时 ， 可 以 选用 不 同 的 内 存 分 配 
库 ， 示 例如 下 。 























。 MySQL 5.5 的 InnoDB 引擎 采用 了 定制 库 ， 该 库 封 装 了 glibc 的 mattoc。GitHub 宣称 切 
换 到 tcmalloc 之 后 延 时 减少 了 30%，Facebook 则 使 用 jemalloc。 

。 PostgreSQL 也 使 用 基于 malloc 定制 的 内 存 分 配 库 。 和 其 他 很 多 数据 库 不 同 ， 
PostgreSQL 以 大 块 的 方式 分 配 内 存 ， 这 种 方式 称 为 内 存 上 下 文 。 

。 Apache Cassandra 2.1 的 堆 外 分 配 使 用 jemalloc。 
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。 MongoDB 3.2 默认 使 用 matlloc 分 配 内 存 ， 但 是 可 以 配置 成 tcmalloc 或 者 jemalloc。 
。 Redis 2.4 使 用 了 jemalloc。 


对 于 大 多 数 数据 库 负 载 而 言 ，jemaLLoc 和 tcmalloc 被 证 明 可 以 显著 提高 并 发 能 力 。 其 性 能 
优 于 glibc 的 原生 malloc， 同 时 内 存 碎片 更 少 。 


内 存 按 页 分 配 ， 默 认 一 页 大 小 为 4KB。 这 样 ，1 GB 内 存 相 当 于 262 144 页 。CPU 利用 页 
表 转 换 地 址 ， 每 个 页 表 项 指向 一 页 。TLB (translation lookaside buffer， 转 换 旁 视 缓冲 器 ， 
简称 快 表 ) 是 内 存 缓存 ， 存 储 了 虚拟 内 存 到 物理 内 存 最 近 的 转换 关系 ， 以 便 加 快 检 索 速 
度 。TLB 缺失 是 指 虚 拟 页 到 物理 页 的 转换 关系 不 在 TLB 中 。 对 于 内 存 访问 而 言 ， 在 TLB 
中 未 命中 的 情况 下 访问 性 能 会 变 差 ， 因 为 地 址 转换 过 程 会 查询 页 表 ， 这 需要 多 次 访问 内 
存 。 在 内 存 很 大 、 页 面 很 多 的 情况 下 ，TLB 缺失 会 导致 抖动 。 




















THP (Transparent Huge Pages， 透 明 大 页 ) 是 一 种 Linux 内 存 管理 系统 ， 它 通过 使 用 更 大 
的 内 存 页 来 减少 大 内 存 机 器 上 的 TLB 查找 开销 ， 从 而 减少 所 需 的 页 表 项 数量 。THP 是 大 
小 为 2 MB~1 GB 的 一 块 内 存 。 用 于 2 MB 页 面 的 表 适 用 于 GB 级 别 的 内 存 ， 而 用 于 1 GB 
页 面 的 表 最 适用 于 TB 级 别 的 内 存 。 然 而 ， 对 这 些 大 页 面 进行 碎片 整理 会 导致 严重 的 CPU 
抖动 ， 这 种 情况 在 Hadoop、Cassandra、Oracle 和 MySQL 等 工作 负载 上 都 可 以 看 到 。 要 想 
缓解 这 种 状况 ， 可 能 需要 禁用 碎片 整理 ， 并 且 会 因此 失去 多 达 10% 的 内 存 。 


Linux 并 没有 针对 需要 低 延 迟 和 高 并 发 性 的 数据 库 负载 进行 专门 优化 。 当 内 核 进入 回收 模 
式 时 ， 它 的 行为 是 不 可 预测 的 。 我 们 可 以 给 出 的 最 佳 建 议 之 一 是 ， 预 留 一 些 物理 内 存 ， 以 
避免 出 现 停 顿 和 高 延 时 。 可 以 通过 配置 预 留 这 些 内 存 ， 避 人 免 其 被 分 配 。 


4. 内 存 置 换 

在 Linux 和 UNIX 系统 中 ， 内 存 置 换 是 为 了 减轻 内 存 资源 的 压力 ， 而 将 内 存 中 可 淘汰 的 数 
据 存 储 到 磁盘 上 的 过 程 。 与 访问 内 存 相 比 ， 访 问 磁盘 会 慢 几 个 数量 级 ， 因 此 应 该 在 不 得 已 
的 情况 下 才 这 样 做 。 


















































普遍 认为 数据 库 应 该 避免 内 存 置 换 ， 因 为 它 会 立即 导致 延 时 超出 可 接受 的 范围 。 话 虽 如 
此 ， 如 果 禁 用 了 内 存 置换 ， 操 作 系统 中 的 OOM Killer (Out of Memory Killer) 将 会 结束 数 
据 库 进 程 。 


对 此 有 两 种 观点 。 第 一 种 观点 (也 是 传统 的 一 种 ) 认为 ， 应 尽量 保证 数据 库 运行 ， 即 使 有 
些 慢 ， 也 好 过 完全 不 可 用 ;第 二 种 观点 更 贴近 数据 库 可 靠 性 工程 的 观念 ， 延 时 影响 和 性 能 
影响 同样 精 糕 ， 因 此 内 存 与 磁盘 的 置换 是 不 可 容忍 的 。 


























数据 库 通 常 有 实际 的 和 理论 上 的 内 存 利用 率 高 水 位 的 相关 配置 。 像 缓冲 池 和 缓存 这 样 的 国 
定 内 存 结构 ， 其 内 存 占用 大 小 是 固定 的 ， 这 使 得 它们 可 预测 。 然 而 ， 连 接 层 的 情况 会 更 复 
杂 一 些 。 有 一 个 基于 最 大 连接 数 和 每 个 连接 内 存 结构 (如 排序 缓冲 区 和 线程 栈 ) 的 最 大 大 
小 的 理论 上 限 。 使 用 连接 池 并 做 一 些 合理 的 假设 ， 有 助 于 预 估 合理 的 安全 国 值 ， 利 用 该 阅 
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值 可 以 避免 内 存 置换 。 


该 过 程 可 能 会 导致 配置 错误 、 过 程 失 控 等 问题 ， 进 而 耗 尽 所 有 内 存 并 最 终 导 致 服务 器 关 
闭 。 不 过 ， 这 是 一 件 好 事 。 如 果 采 用 了 有 效 的 监控 、 足 够 的 容量 以 及 故障 转移 策略 ， 实 际 
上 已 经 吉 免 了 因 延 时 而 导致 违背 SLO 的 可 能 。 

















禁用 内 存 置 换 
仅 当 有 绝对 可 靠 的 故障 转移 流程 时 ， 才 可 以 开启 内 存 置 换 ， 否 则 一 定 会 影响 
应 用 程序 的 可 用 性 。 

















选择 开启 内 存 置换 ， 可 以 降低 操作 系统 将 数据 库 内 存 置换 为 文件 缓存 的 概率 ， 但 这 通常 没 
有 帮助 。 也 可 以 调整 数据 库 进 程 的 OOM 权重 ， 来 降低 因 其 他 地 方 需要 内 存 而 导致 数据 库 
进程 被 内 核 内 存 分 析 器 结束 的 概率 。 


5. 非 一 致 性 内 存 访 问 

多 处 理 器 的 早期 实现 使 用 称 为 SMP (symmetric multiprocessing， 对 称 多 处 理 ) 的 架构 ， 通 
过 CPU 和 内 存 区 之 间 的 共享 总 线 为 每 个 CPU 提供 对 内 存 的 平等 访问 。 现 代 多 处 理 器 系统 
使 用 NUMA (non-uniform memory access， 非 一 致 性 内 存 访问 )， 为 每 个 CPU 提供 一 个 本 
地 内 存 区 。 内 存 区 和 其 他 处 理 器 之 间 的 访问 仍然 通过 共享 总 线 来 完成 。 如 此 一 来 ， 与 访问 
其 他 内 存 区 ( 远 端 ) 相 比 ,访问 某 些 内 存 区 (本地) 的 延 时 要 低 很 多 。 


在 Linux 系统 中 ， 处 理 器 (包括 它 的 所 有 核 ) 被 视 为 一 个 节点 。 操 作 系 统 把 内 存 区 与 本 地 
市 点 绑 定 ， 并 基于 距离 计算 市 点 间 的 开销 。 一 个 进程 以 及 它 的 线程 ， 会 因 这 种 内 存 访问 模 
式 而 被 分 配 到 一 个 首选 节点 执行 。 调 度 器 会 临时 改变 这 条 规则 ， 但 是 亲和力 (affinity) 会 
始终 使 用 这 个 首选 厄 点 。 此 外 ,分 配 内 存 之 后 ， 进 程 不 会 移动 到 其 他 市 点 上 。 


在 大 内 存 结构 的 环境 中 〈 例 如 数据 库 缓 冲 池 ) ， 这 意味 着 大 量 内 存 会 分 配给 首选 节点 。 这 
种 不 均衡 可 能 会 导致 首选 节点 内 存 耗 尽 ， 没 有 内 存 可 用 。 因 此 ， 即 使 与 服务 器 的 物理 可 用 
内 存 相 比 只 使 用 了 少量 内 存 ， 仍 然 会 发 生 内 存 置换 现象 。 











































































































Twitter 解决 使 用 MySQL 过 程 中 遇 到 的 NUMA 问题 
关于 这 个 问题 以 及 Twitter 的 解决 方法 ，Jeremy Cole 发 表 过 两 篇 重要 的 文章 。 最 初 的 
方法 是 通过 numactl --interleave=all 强制 交叉 分 配 。 
通过 局 用 交叉 分 配 ， 内 存 实 际 上 分 配给 所 有 节点 。 然 而 ， 这 也 不 是 完全 有 效 的 ， 为 
线 上 MySQL 进程 在 运行 一 段 时 间 并 重启 后 ， 操 作 系 统 缓冲 区 缓存 可 能 会 满 。 下 面 两 
种 方法 证 明了 该 过 程 是 可 重复 和 可 靠 的 。 








注 1:“Abriefupdate on NUMA and MySQL” 和 “The MySQL swap insanity problem and the effects of the NUMA 


architecture” 。 
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在 mysqtLd 启动 前 ， 通 过 sysctL -q -w vm.drop_caches=3 刷新 Linux 缓冲 区 缓存 ， 
以 使 内 存 分 配 更 公平 。 即 使 在 守护 进程 重新 启动 时 ， 操 作 系 统 缓冲 区 缓存 中 还 有 大 
量 数据 的 情况 下 也 是 如 此 。 
使 用 MAP_POPULATE (Linux 2.6.23 以 上 版 本 支持 )， 强 制 操 作 系 统 在 MySQL 启动 后 
立即 分 配 InnoDB 缓冲 池 ， 而 不 是 等 到 内 硼 初 始 化 时 。 这 会 强制 NUMA 节点 立即 
做 出 分 配 决 策 ， 并 且 这 时 的 缓冲 区 缓存 是 干净 的 〈 通 过 前 面 提 到 的 刷新 过 程 ) 。 
这 是 数据 库 可 靠 性 工程 师 能 为 软件 工程 师 和 软件 可 靠 性 工程 师 提供 方便 的 一 个 例子 。 在 
本 例 中 ， 对 于 过 度 交 换 导 致 的 问题 ， 需 要 深入 研究 操作 系统 内 存 管理 ， 并 结合 对 MySQL 
内 存 管理 的 深入 理解 ， 这 样 可 以 更 快 地 修复 问题 ， 并 且 修 复合 并 到 MySQL 的 主 分 支 中 。 








就 这 一 点 ， 对 于 数据 库 可 靠 性 工程 师 的 大 多 数 需 求 而 言 ， 可 以 将 内 核 中 的 NUMA 设置 为 
交叉 访问 模式 。 相 同 的 问题 在 使 用 PostgreSQL、Redis、Cassandra、MongoDB、MySQL 和 
Elasticsearch 时 也 很 常见 。 








6. 网 络 
本 书 假设 所 有 数据 存储 都 是 分 布 式 的 。 网 络 流量 对 于 数据 库 的 性 能 和 可 用 性 非常 重要 。 网 
络 流量 分 类 如 下 : 


市 点 间 流 量 ， 
应 用 程序 流量 ， 
管理 流量 ， 


备份 和 恢复 流量 。 








市 点 间 流 量 包 括 数据 复制 、 共 识 和 gossip 协议 ， 以 及 集群 管理 。 这 些 数 据 用 于 让 集群 知晓 
自己 的 状态 ， 以 及 保持 适当 的 副本 数量 。 应 用 程序 流量 来 自 应 用 程序 服务 器 或 者 代理 ， 用 
于 维护 应 用 状态 ， 支 持 应 用 程序 新 增 、 修 改 和 删除 数据 的 操作 。 


管理 流量 是 指 管理 系统 、 运 维 人 员 和 集群 之 间 的 通信 ， 包 括 启 动 和 停止 服务 、 部 署 二 进 制 
程序 、 数 据 库 和 配置 变更 。 当 其 他 地 方 出 现 问 题 时 ， 这 是 系统 的 生命 线 ， 让 我 们 得 以 手动 
或 自动 恢复 系统 。 顾 名 思 义 ， 备 份 和 恢复 流量 就 是 在 归档 和 数据 复制 、 在 系统 之 间 移 动 数 
据 或 从 备份 中 恢复 数据 时 所 产生 的 流量 。 


























流量 隔离 是 数据 库 正 确 使 用 网 络 的 第 一 步 ， 可 以 通过 物理 NIC (network interface card， 网 
络 接口 卡 ) 或 NIC 分 区 来 实现 。 现 代 服务 器 通常 有 1 Gbit/s 和 10 Gbit/s 两 种 NIC， 可 以 将 
它们 绑 定 在 一 起 ， 以 实现 元 余 和 负载 均衡 。 虽 然 这 种 元 余 将 增加 MTBF， 但 这 里 是 在 增强 
稳健 性 而 非 弹性 。 


数据 库 需 要 高 效 的 传输 层 来 管理 工作 负载 。 频 繁 而 快速 地 创建 连接 、 较 短 的 往返 路 径 ， 以 
及 对 延 时 敏感 的 查询 都 需要 特定 的 调 优 工作 ， 这 可 以 分 为 以 下 3 个 方面 。 
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。 增加 TCP/IP 的 端口 数量 ， 优 化 大 量 连 接 。 
缩短 回收 套 接 字 所 需 时 间 ， 以 避免 大 量 连 接 处 于 TIME_WAIT 状态 ， 从 而 导致 不 可 用 。 
维护 较 大 的 TCP backlog， 避 免 由 于 饱和 而 导致 拒绝 连接 。 








TCP/IP 是 解决 延迟 和 可 用 性 问题 的 工具 ， 强 烈 建议 你 对 其 进行 深入 研究 。Douglas E. 
Comer 所 著 的 《用 TCP/IP 进行 网 际 互 连 》 第 一 卷 (于 2014 年 更 新 ) 是 学 习 TCP/IP 的 好 
书 和 参考 材料 。 


7. 存储 
数据 库存 储 是 一 个 庞大 的 话题 ， 需 要 考虑 单个 磁盘 、 磁 盘 的 分 组 配置 、 磁 盘 控 制 右 、 卷 管 
理 软件 以 及 其 上 的 文件 系统 。 每 一 项 都 有 很 多 内 容 可 讨论 ， 这 里 只 做 通 览 。 











图 5-1 展示 了 访问 存储 中 数据 的 方式 。 当 从 文件 读 取 数 据 时 ， 需 要 从 用 户 缓冲 区 到 页 面 组 
存 ， 然 后 到 磁盘 控制 器 ， 再 到 磁 碟 (disk platter) 读 取 数 据 ， 最 后 原 路 返回 将 数据 交 给 用 户 。 














数据 库 用 户 空 间 
〈 例 如 缓冲 区 、 
事务 日 志 等 ) 


read, write, open, stat, chmod 


文件 系统 


卷 管理 器 、 设 备 映 射 器 
磁盘 块 级 别 的 复制 


lI/O 调 度 器 \ 


写 缓存 
物理 RAID、 磁 盘 














5-1: Linux 存储 栈 


这 种 由 缓冲 区 、 调 度 程序 、 队 列 和 缓存 组 成 的 复杂 级 联系 统 ， 用 于 缓解 磁盘 与 内 存 相 比较 
慢 (100 ns 与 10 ms 之 别 ) 的 状况 。 
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对 于 数据 库存 储 ， 主 要 有 5 个 需求 (目标) : 





。 吞吐 量 (或 每 秒 IO 操作 的 次 数 ， 即 IOPS ) ， 
。 延 时 ; 

。 可 用 性 ; 

。 持久 性 。 


8. 存储 容量 

容量 是 数据 库 中 数据 和 日 志 可 用 的 存储 空间 。 它 们 可 以 存储 在 大 型 磁盘 、 多 磁盘 条 带 
(RAID 0)， 或 者 多 个 磁盘 作为 独立 挂 载 点 〈 称 为 JBOD 或 磁盘 徐 ) 的 设备 上 。 每 种 解决 方 
案 的 故障 模式 不 同 。 除 非 采 用 镜像 (RAID 1)， 否 则 独立 大 磁盘 存在 单 点 故障 。RAID 0 的 
MTBF 将 降 至 1MV， 其 中 是 磁盘 数量 。JBOD 的 故障 将 更 频繁 ， 但 与 RAID 0 不同， 其 他 
N-1 个 磁盘 仍然 是 可 用 的 。 一 些 数据 库 可 以 利用 这 一 点 ， 并 保持 正常 运行 (以 降级 模式 )， 
直到 用 新 磁盘 替换 。 


不 过 ， 数 据 库 对 容量 的 需求 只 是 对 存储 需求 的 一 部 分 。 如 果 需 要 10 TB 的 存储 ， 可 以 创建 
一 个 10 TB 的 条 带 集 ， 或 者 在 JBOD 中 挂 载 10 个 1 TB 的 磁盘 ， 并 在 它们 之 间 分 布 数据 。 
这 也 意味 着 现在 有 一 个 10 TB 的 数据 库 需 要 立即 备份 ， 如 果 发 生 故 障 ， 需 要 恢复 10 TB 的 
数据 ， 这 会 非常 耗 时 。 其 间 整 个 系统 的 容量 减少 ， 可 用 性 降低 。 此 外 ， 必 须 孝 虑 数据 库 软 
件 、 操 作 系 统 和 硬件 能 否 管理 整个 数据 存储 读 写 的 并 发 负载 ， 以 便 对 单一 数据 存储 进行 读 
写 。 将 该 系统 分 解 为 更 小 的 数据 库 ， 将 提高 应 用 程序 、 备 份 /恢复 和 复制 数据 集 的 弹性 、 
容量 和 性 能 。 




































































9. 存储 吞吐 量 

IOPS 是 对 存储 设备 每 秒 VO 操作 的 标准 度量 ， 包 括 读 和 写 。 在 考虑 需求 时 ， 必 须 考 虑 数据 
库 工 作 负 载 峰值 的 IOPS， 而 不 是 平均 值 。 在 规划 新 系统 时 ， 需 要 估计 每 个 事务 所 需 的 IO 
数量 和 事务 量 峰 值 ， 这 因应 用 程序 而 异 。 对 于 执行 单行 插入 和 读 取 的 应 用 程序 ， 每 个 事务 
中 可 能 执行 4~5 个 IO， 复 杂 的 查询 事务 可 达 20~30 个 LO。 




















数据 库 工 作 负 载 往往 是 混合 读 / 写 的 ， 并 且 是 随机 的 ， 而 不 是 顺序 的 。 当 然 也 有 例外 ， 比 
如 只 追加 写 模式 (比如 Cassandra 的 SSTable) 便 是 顺序 写 入 。 对 于 机 械 硬 盘 ， 随 机 IOPS 
主要 取决 于 存储 设备 的 随机 寻 道 时 间 ， 对 于 固态 硬盘 ， 随 机 IOPS 反而 受制 于 内 部 控制 器 
和 内 存 接口 的 速度 ， 这 就 解释 了 为 何 固态 硬盘 在 IOPS 方面 有 显著 改善 。 顺 序 IOPS 表示 磁 
盘 能 够 产生 的 最 大 持续 带宽 。 顺 序 IOPS 通常 以 每 秒 兆 字 节 (Mbit/s) 来 表示 ， 指 示 批 量 加 
载 或 顺序 写 操作 的 性 能 。 


在 选择 固态 硬盘 时 ， 还 需要 考虑 总 线 。 考 虑 PCIe 总 线 上 的 闪存 产品 解决 方案 ， 例 如 具有 微 
秒 延迟 和 6 Gbit/s 吞吐 量 的 FusionIO。 然 而 ， 在 撰写 本 文 时 ，10 TB 将 花费 约 4.5 万 美元 。 
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传统 上 ， 与 存储 容量 相 比 ，IOPS 是 更 重要 的 制约 因素 。 对 于 写 操作 尤其 如 此 ， 你 无 法 像 对 
待 读 请 求 一 样 通过 缓存 来 优化 。 通 过 条 带 化 (RAID 0) 或 在 JBOD 中 添加 磁盘 的 方式 ， 可 
以 像 增加 存储 容量 一 样 ， 增 加 存储 的 IOPS。RAID 0 可 以 提供 统一 的 延迟 ， 并 消除 JBOD 
中 可 能 出 现 的 热点 问题 ， 代 价 是 随 着 条 带 集中 磁盘 数量 的 增加 ，MTBF 会 减少 。 











10. 存储 延 时 

延 时 是 从 客户 端 发 出 的 端 到 端 IO 操作 延 时 ， 即 从 发 送 IO 请 求 到 确认 读 写 完成 的 用 时 。 
与 大 多 数 资源 一 样 ， 有 请 求 等 待 队 列 ， 在 饱和 期 间 请 求 可 能 积压 。 在 某 种 程度 上 ， 排 队 不 
是 坏事 。 事 实 上 ， 许 多 控制 器 的 设计 优化 了 队列 深度 。 如 果 工 作 负载 没有 足够 的 IO 请 求 
来 充分 利用 可 用 性 能 ， 那 么 存储 可 能 无 法 达到 预期 的 吞吐 量 。 














事务 性 数据 库 应 用 程序 对 IO 延 时 的 增加 很 敏感 ， 因 此 非常 适合 选用 固态 硬盘 。 通 过 保持 
较 小 的 队列 长 度 和 较 高 的 卷 可 用 IOPS 数量 ， 可 以 保持 较 高 的 IOPS， 同 时 保持 较 低 的 延 
时 。 持 续 发 送 过 多 的 IO 请 求 到 一 个 卷 ， 使 其 超出 可 用 范围 ， 可 能 会 增加 IO 延 时 。 











hl 





像 大 型 MapReduce 查询 这 样 的 否 吐 密集 型 应 用 程序 ， 对 LO 延 时 的 增加 不 太 敏感 ， 因 此 非 
常 适合 用 机 械 硬盘 卷 。 在 执行 大 量 顺序 IO 时 ， 可 以 通过 保持 较 长 的 队列 来 保障 机 械 硬盘 
卷 的 高 吞 叶 量 。 








Linux 页 面 缓存 是 延迟 的 另 一 个 瓶颈 。 使 用 Direct IO 〈0_DIRECT) ， 可 以 绕 过 页 面 缓存 ， 从 
而 避免 儿 毫 秒 的 延 时 。 


11. 存储 可 用 性 

性 能 和 容量 是 关键 因素 ， 但 必须 考虑 存储 的 可 用 性 。2007 年 ， 谷 歌 对 机 械 硬 盘 的 故障 率 进 
行 了 一 项 名 为 “Failure Trends in a Large Disk Drive Population ”的 研究 (参见 图 5-2)。 结 
果 显 示 ， 前 3 个 月 预计 100 个 磁盘 中 大 约 有 3 个 发 生 故 障 。 在 前 6 个 月 正常 运行 的 磁盘 
中 ， 在 接 下 来 的 6 个 月 中 ， 每 50 个 磁盘 中 大 约 有 1 个 磁盘 发 生 故 障 。 似 乎 问题 不 大 ， 但 
是 如 果 有 6 台数 据 库 服 务 器 ， 每 台 服 务 器 有 8 个 磁盘 ， 那 么 在 这 段 时 间 内 可 能 会 有 1 个 磁 


盘 发 生 故 障 。 
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按 使 用 年 限 划分 的 年 化 故障 率 














图 5-2: 磁盘 故障 率 (来 自 谷歌 的 调查 ) 
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这 就 是 工程 师 通 过 RAID 1 镜像 、 数 据 校 验 条 带 集 的 方式 来 增强 可 靠 性 的 原因 。 本 书 不 讨 
论 奇偶 校 验 的 变 体 (例如 RAID 5)， 因 为 写 操作 的 代价 非常 大 。 现 代 存 储 子 系统 通常 会 采 
用 JBOD， 或 者 按 条 带 (RAID 0)、 镜 像 (RAID 1) 或 条 带 镜像 (RAID 10) 的 方式 来 组 织 
磁盘 。 鉴 于 此 ， 很 容易 推断 出 RAID 1 和 RAID 10 对 单 磁盘 故障 的 容忍 度 更 高 ， 而 RAID 0 
更 容易 导致 服务 不 可 用 (磁盘 条 带 中 的 磁盘 越 多 ， 就 越 可 能 发 生 故障 )。JBOD 容忍 故障 的 
能 力 很 强 ， 可 通过 剩余 的 部 分 存储 来 提供 服务 。 

















可 用 性 不 仅 涉及 卷 的 MTBF， 也 涉及 发 生 故 障 后 重建 所 需 的 时 间或 MITTR。 选 择 RAID 10 
还 是 RAID 0， 取 决 于 在 故障 期 间 部 署 替 换 数据 库 主 机 的 能 力 。 出 于 性 能 方面 的 原因 ， 很 
容易 考虑 使 用 RAID 0。RAID 1 或 RAID 10 的 写 操作 IOPS 提升 1 倍 ， 如 果 使 用 高 端 驱动 
器 ， 那 么 硬件 副本 可 能 会 变 得 昂贵 。RAID 0 性 能 高 且 可 预测 ， 但 比较 脆弱 。 毕 竟 ， 由 5 
个 机 械 硬盘 组 成 的 条 带 集 ， 第 1 年 的 故障 率 预 计 约 为 10%。 如 果 有 4 个 主机 ， 预 计 一 两 年 
就 会 发 生 一 次 故障 。 


使 用 镜像 ， 无 须 重新 构建 数据 库 便 能 蔡 换 磁盘 。 如 果 正 在 运行 一 个 2 TB 的 数据 库 (使 用 
旋转 磁盘 )， 那 么 复制 数据 库 备份 所 需 的 时 间 以 小 时 计 ， 并 且 可 能 需要 更 多 时 间 来 同步 上 
次 备份 的 增 量 。 为 了 适应 这 种 情况 ， 需 要 考虑 在 恢复 过 程 中 是 否 有 足够 的 容量 来 支持 峰值 
流量 (在 一 个 其 至 两 个 布点 故障 的 情况 下 )。 在 一 个 数据 集 只 存 有 部 分 用 户 数 据 的 分 片 环 
境 中 ， 这 是 完全 可 以 接受 的 ， 可 以 为 了 节省 成 本 和 避免 写 延迟 而 采用 脆弱 的 数据 卷 。 


12. 持久 性 

最 后 ， 还 要 考虑 持久 性 。 当 数据 库 在 保证 持久 性 的 情况 下 将 数据 提交 到 物理 磁盘 时 ， 它 会 
发 出 一 个 称 为 fsync() 的 操作 系统 调用 ， 而 不 是 依赖 页 面 缓存 刷新 机 制 。 例 如 在 生成 重 做 
日 志 或 预 写 日 志 时 ， 必 须 保证 真正 写 入 磁盘 ， 以 确保 数据 库 的 可 恢复 性 。 为 了 保证 写 性 
能 ， 许 多 磁盘 和 控制 器 使 用 内 存 缓存 。fsync 指示 存储 子 系统 必须 将 缓存 数据 刷新 到 磁盘 。 
如 果 写 缓存 有 独立 电源 ， 能 够 确保 在 断 电 时 数据 不 会 丢失 ， 那 么 不 刷新 缓存 能 提高 性 能 。 
验证 特定 的 设置 确实 能 够 将 数据 刷新 到 稳定 的 存储 (无 论 是 NVRAM、 写 缓存 还 是 磁盘 ) 
非常 重要 。 可 以 通过 Brad Fitzpatrick 的 diskcheckerpl 工具 来 验证 。 



































文件 系统 的 操作 还 可 能 在 发 生 故障 (例如 月 涡 ) 时 ， 导 致 数据 损坏 和 不 一 致 。 但 是 ， 像 
XFS 和 EXT4 这 样 的 日 志文 件 系统 ， 可 以 显著 降低 出 现 这 类 结果 的 可 能 性 。 


5.1.3 存储 区 域 网 络 

与 直接 存储 相反 ， 可 以 使 用 带 有 外 部 接口 (通常 是 光纤 通道 ) 的 存储 区 域 网 络 (storage 
area network，SAN)。SAN 比 直 接 相 连 的 存储 设备 昂贵 得 多 ， 通 过 集中 式 存 储 可 以 减少 管 
理 开 销 ， 而 且 灵 活性 较 大 。 


使 用 顶级 SAN 可 以 获得 更 多 缓存 。 此 外 ， 对 于 大 型 数据 集 ， 还 有 许多 有 用 的 特性 ， 比 如 











对 备份 和 数据 副本 进行 快照 。 实 际 上 ， 数 据 快 照 和 数据 迁移 是 现代 基础 设施 中 的 优良 特 
性 ， 甚 中 国 态 硬盘 的 IO 性 能 优 于 传统 SAN。 


5.1.4 物理 服务 器 的 优点 

物理 服务 器 是 托管 数据 库 的 最 简单 方法 ， 没 有 隐藏 实现 和 运行 时 细 广 或 增加 额外 复杂 性 的 
抽象 。 在 大 多 数 情况 下 ， 你 可 以 对 操作 系统 进行 尽 可 能 多 的 控制 ， 并 获得 尽 可 能 高 的 可 见 
性 ， 这 使 得 运 维 相当 简单 。 


5.1.5 物理 服务 器 的 缺点 

物理 服务 器 也 有 一 些 缺 点 。 首 先 ， 你 可 能 会 浪费 专门 用 于 特定 服务 器 的 容量 ， 其 次 ， 部 署 
这 些 系 统 可 能 相当 耗 时 ， 而 且 很 难 确保 每 台 服 务 器 在 硬件 和 软件 方面 都 是 相同 的 。 这 就 引 
出 了 虚拟 化 。 


5.2 虚拟 化 


在 虚拟 化 系统 中 ， 软 件 分 割 底层 硬件 资源 ， 创 建 各 种 独 享 资源 。 该 软件 可 以 让 多 个 应 用 程 
序 在 各 自 的 操作 系统 上 运行 ， 而 这 些 操 作 系 统 在 同一 台 物 理 服务 器 上 运行 。 例 如 ， 在 虚拟 
机 出 现 之 后 ， 可 以 在 一 台 服 务 器 上 交替 运行 4 个 Linux 实例 ， 每 个 实例 都 有 专用 的 计算 、 
内 存 、 网 络 和 存储 资源 。 


利用 虚拟 化 技术 ， 可 以 将 基础 设施 的 资源 (包括 计算 、 存 储 和 网 络 ) 组 合 起 来 ， 创 建 可 以 
分 配给 虚拟 服务 器 的 地 。 这 通常 称 为 云 计 算 。 在 公有 云 (比如 AWS) 上 运行 服务 便 是 如 
此 。 在 自己 的 数据 中 心 也 可 以 这 样 做 。 


问题 的 关键 是 ， 无 论 是 采用 公有 云 、 私 有 云 还 是 混合 云 的 解决 方案 ， 都 可 以 通过 代码 定义 所 
需 的 服务 器 资源 以 及 操作 系统 ， 这 样 就 可 以 持续 部 署 数据 库 系 统 了 。 这 意味 着 用 户 可 以 使 用 
数据 库 可 靠 性 工程 师 创建 好 的 标准 配置 集 ， 部 署 自己 的 数据 库 集群 。 标 准 配置 主要 包括 : 


。 操作 系统 ， 

。 数据 库 软 件 的 版 本 ， 

。 操作 系统 和 数据 库 配 置 ， 
。 安全 和 权限 ; 

。 软件 包 和 库 ， 

。 管理 脚本 。 


这 是 一 件 好 事 ， 但 在 物理 资源 之 上 增加 一 层 抽象 ， 管 理 的 复杂 性 也 增加 了 。 下 面 看 看 这 些 
问题 。 
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5.2.1 虚拟 机 管理 程序 

虚拟 机 管理 程序 (hypervisor) 或 虚拟 机 监控 器 的 形态 ， 可 以 是 软件 、 固 件 或 硬件 。 虚 拟 机 
管理 程序 创建 并 运行 虚拟 机 。 ee 个 或 多 个 虚拟 机 ， 则 这 台 
计算 机 称 为 宿主 机 (host machine)， 其 上 运行 的 虚拟 机 称 为 客户 机 (guest machine)。 虚 拟 
机 管理 程序 为 虚拟 机 操作 系统 提供 虚拟 操作 平台 ， 并 管理 虚拟 机 操作 系统 的 运行 。 


5.2.2 并 发 


同一 数据 库 软 件 在 虚拟 机 上 运行 时 的 并 发 量 要 比 在 物理 机 上 运行 时 小 ， 所 以 在 设计 此 类 虚 
拟 化 环境 时 应 主要 考虑 水 平 扩展 ， 尽 量 减 少 单 市 点 的 并 发 量 。 


5.2.3 存储 
在 虚拟 化 环境 中 ， 存 储 的 稳定 性 和 性 能 会 低 于 预期 。 在 虚拟 机 的 页 高 速 缓冲 存储 器 (Page 
Cache) 和 存储 控制 器 之 间 ， 存 在 虚拟 的 控制 器 、 虚 拟 机 管理 程序 和 宿主 机 的 页 高 速 缓冲 
存储 器 ， 所 以 IO 的 延 时 会 增加 。 出 于 性 能 上 的 考虑 ， 虚 拟 机 管理 程序 不 支持 在 写 操作 时 
调用 fsync， 这 意味 着 在 应 用 程序 月 溃 时 不 能 保证 数据 真正 落 盘 。 


此 外 ， 即 使 可 以 在 10 分 钟 甚至 更 短 的 时 间 内 新 建 一 个 虚拟 机 ， 也 不 一 定 能 创建 出 数据 库 
正常 工作 所 需 的 数据 。 比 如 部 署 了 一 个 新 副本 ， 需 要 从 别处 同步 原始 数据 。 


虚拟 化 环境 中 的 存储 主要 分 为 两 类 : 本 地 存储 和 持久 化 块 存储 。 本 地 存储 的 数据 是 易 失 
的 ， 这 类 数据 只 有 在 虚拟 机 生命 期 内 才 可 访问 。 持 久 化 块 存储 设备 可 以 挂 载 到 任何 虚拟 机 
上 ， 挂 载 后 所 有 虚拟 机 都 可 以 对 这 些 数据 进行 读 写 。 即 使 该 关闭 虚拟 机 ， 该 块 存储 设备 还 
可 以 挂 载 到 其 他 虚拟 机 上 。 对 于 数据 库 而 言 ， 这 类 外 部 的 持久 性 存储 是 理想 的 数据 存储 介 
质 。 通 常 这 类 块 存储 设备 也 支持 快照 功能 ， 以 便 数据 迁移 。 


这 类 块 存储 设备 比 传统 的 磁盘 更 依赖 网 络 ， 因 此 网 络 拥塞 会 大 大 降低 存储 性 外 






















































































5.2.4 用例 

有 了 上 述 注意 事项 ， 在 计划 将 虚拟 化 和 云 资 源 用 于 数据 库 基 础 设施 时 ， 数 据 库 可 靠 性 工程 
师 需 要 更 谭 慎 地 思考 。 在 设计 这 类 基础 设施 时 ， 必 须 将 上 述 因 素 都 萎 虑 在 内 ， 总 结 如 下 。 

。 不 能 保证 持久 性 意味 着 数据 丢失 不 可 避免。 

。 实例 不 稳定 意味 着 自动 化 、 故 障 转 移 和 故障 恢复 必须 非常 可 靠 。 

。 水 平 扩展 要 求 可 以 自动 化 地 管理 大 量 服务 器 。 

。 应 用 必须 能 容忍 延 时 不 稳定 的 问题 。 


尽管 有 许多 不 足 ， 但 建立 基于 虚拟 化 和 云 的 数据 库 基 础 设施 仍然 非常 有 价值 。 而 创建 用 户 
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可 以 在 其 上 进行 构建 和 使 用 的 自助 服务 平台 ， 可 以 扩大 数据 库 可 靠 性 工程 师 的 影响 。 即 使 
数据 库 可 靠 性 工程 师 人 数 不 多 ， 也 可 以 传播 知识 和 最 佳 实践 。 





快速 部 署 有 助 于 对 应 用 程序 和 原型 开展 详细 的 调试 ， 也 有 助 于 提高 开发 团队 的 效率 ， 因 为 
无 须 依 赖 数据 库 可 靠 性 工程 师 来 完成 部 署 和 配置 工作 。 这 意味 着 ， 在 部 署 新 应 用 程序 的 持 
入 化 层 时 ， 开 发 人 员 可 以 自行 部 署 ， 无 须 数据 库 可 靠 性 工程 师 介 入 。 


5.3 ”容器 


容器 位 于 物理 服务 器 及 其 操作 系统 之 上 ， 所 有 容器 共享 物理 机 的 操作 系统 内 核 、 二 进 制 文 
件 和 库 。 这 些 共享 的 组 件 是 只 读 的 ， 每 个 容器 只 操作 自己 单独 的 挂 载 点 。 容 器 比 虚 拟 机 更 
轻 量 ， 实 际 上 ， 它 们 只 有 兆 字 节 大 小 。 新 建 虚 拟 机 需要 10 分 钟 左右 ， 而 容器 只 需 儿 秒 就 
能 启动 。 

然而 ， 对 数据 存储 而 言 ，Docker 快速 启动 的 优点 常常 因 需 要 挂 载 、 引 导 和 同步 数据 被 抵消 
了 。 此 外 ， 定 制 化 内 核 、 过 重 的 IO 负载 以 及 网 络 拥塞 ， 使 得 共享 宿主 机 / 操作 系统 的 模 
型 面临 很 大 的 挑战 。Docker 快速 部 署 的 优点 使 其 成 为 开发 和 测试 环境 中 的 强大 工具 ， 也 是 
数据 库 可 靠 性 工程 师 的 实用 工具 。 

















5.4 DaaS 


越 来 越 多 的 公司 在 为 虚拟 化 和 云 服务 寻找 第 三 方 方 案 。 拿 第 6 章 将 讨论 的 自助 服务 模型 
来 讲 ， 最 终 采 用 的 是 第 三 方 管理 的 数据 库 平 台 。 所 有 公有 云 都 提供 这 类 服务 ， 其 中 最 著 
名 的 是 亚 马 渤 RDS (relational database service， 关 系 型 数据 库 服务 )。RDS 涵盖 MySQL、 
PostgreSQL，Aurora、SQL Server 以 及 Oracle。 在 这 类 环境 中 ， 可 以 为 基础 设施 选择 已 经 
部 署 好 的 数据 库 系 统 。 


由 于 很 多 简单 的 操作 已 经 自动 化 ， 节 省 了 许多 宝贵 的 工程 资源 ， 因 此 当前 Daag 被 广泛 采 
用 。Daas 提供 的 典型 功能 包括 : 











。 部 署 ， 
。 主 库 故障 迁移 ， 
。 补丁 和 升级 ， 
。 备份 和 恢复 ， 
。 度量 值 展 示 ; 
“特殊 机 制 ” 带 来 的 高 性 能 ， 比 如 亚马逊 的 Aurora。 











上 述 功 能 能 够 节省 时 间 ， 但 软件 工程 师 切 勿 以 为 不 再 需要 数据 库 专家 了 ， 事 实 远 非 如 此 。 
抽 离 的 服务 自 有 其 挑战 ， 更 重要 的 是 ， 它 们 便于 你 发 挥 专长 ， 创 造 最 大 价值 。 
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5.4.1 DaaS 面 临 的 挑战 
缺少 可 视 化 工具 是 Daas 面临 的 最 大 挑战 之 一 。 由 于 无 法 访问 操作 系统 、 网 络 设备 和 硬件 ， 
很 多 重要 的 问题 将 无 法 诊断 。 











DaasS 与 网 络 时 间 协 议 
我 们 曾 使 用 一 个 知名 的 DaaS 服务 ， 而 我 们 的 客户 决定 使 用 厂商 提供 的 新 版 本 的 数据 
库 。 我 们 劝说 客户 不 要 使 用 ， 但 厂商 给 予 了 一 些 优惠 并 且 我 们 的 服务 仍 处 于 测试 阶 
段 。 在 这 种 情况 下 ， 运 维 人 员 和 忽略 了 在 所 有 节点 上 执行 网 络 时 间 协 议 (network time 
protocol，NTP) 来 同步 时 间 。 经 过 数 小 时 的 排查 ,仍然 无 法 解释 副本 滞后 的 原因 ， 于 
是 我 们 给 厂商 的 技术 支持 打 电 话 试图 再 清楚 状况 。 真 是 糟糕 的 一 晚 。 











尽管 现在 许多 监控 系统 在 TCP 级 别 上 收集 数据 库 SQL 数据 ， 以 便 管 理 大 规模 的 数据 收集 ， 
但 又 不 得 不 使 用 日 志 或 内 部 快照 ， 比 如 MySQL 中 数据 的 performance schema。 另 外 ， 很 多 
经 典 的 追踪 和 监控 工具 无 法 使 用 ， 比 如 top、dtrace 和 vmstat 等 。 





DaaS 和 其 他 虚拟 化 环境 一 样 存在 持久 化 问题 ， 并 且 重 要 组 件 〈 比 如 复制 和 备份 ) 的 实现 
通常 是 黑 盒 ， 取 决 于 厂商 。 


5.4.2 数据库 可 靠 性 工程 师 与 DaaS 

在 市 场 上 ，Daas 的 卖点 是 让 你 无 须 聘请 费用 高 昂 且 难以 雇用 / 留 住 的 数据 库 专家 。Daag 
平台 确实 能 让 你 更 快 地 引入 从 运 维 角度 来 说 可 靠 的 数据 库 基础 设施 ， 进 而 推迟 雇用 或 聘请 
数据 库 专家 ， 但 还 远 达 不 到 不 需要 聘请 数据 库 专 家 的 程度 。 


如 果 有 什么 不 同 的 话 ， 那 就 是 DaaS 将 复杂 而 容易 解决 的 问题 抽象 了 出 来 ， 因 而 在 数据 库 
专家 加 入 之 前 ， 你 可 能 会 碰 到 难以 解决 的 问题 。 除 此 之 外 ， 还 有 许多 事情 需要 尽早 决策 ， 
而 做 出 这 些 决 策 需要 深入 理解 所 选择 的 数据 库 引 警 。 这 些 重要 决策 包括 : 


使 用 哪个 数据 库 引 警 ， 
如 何 对 数据 建 模 ， 
。 合适 的 数据 访问 框架 ; 
。 数据 库 安全 性 决策 ， 
。 数据 管理 、 容 量 及 增长 规划 。 


所 以 ， 即 使 Daas 可 以 帮助 软件 工程 师 完成 更 多 工作 ， 数 据 库 可 靠 性 工程 师 也 需要 努力 帮 
助 他 们 做 出 正确 的 选择 ， 利 用 自身 专业 知识 帮助 成 功 部 署 DaaS 。 







































































DaaS 对 组 织 很 有 吸引 力 ， 尤 其 是 在 组 织 发 展 的 早期 ， 那 时 候 时 间 非 常 宝 贵 。 在 这 样 的 环 
弹 中， 强烈 建议 数据 库 可 靠 性 工程 师 为 基础 设施 准备 好 数据 迁移 和 灾难 恢复 方案 。 可 以 适 
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时 将 Daag 解决 方案 所 做 的 事情 自动 化 ， 以 便 完 全 控制 数据 存储 ， 并 且 可 以 随时 掌握 数据 
存储 状况 。 
5.5 ”小结 


本 章 介绍 了 主机 类 型 选项 一 一 物理 机 、 虚 拟 机 、 容 器 以 及 服务 ， 讨 论 了 处 理 器 、 内 存 、 网 
络 和 存储 资源 所 产生 的 影响 ， 以 及 资源 不 足 和 配置 错误 所 产生 的 影响 。 

















第 6 章 将 讨论 如 何 通 过 适当 的 工具 和 过 程 来 管理 这 些 数据 库 基础 设施 ， 以 实现 规模 化 ， 并 
管理 风险 和 故障 。 内 容 将 涵盖 配置 管理 、 编 排 、 自 动 化 和 服务 发 现 以 及 管理 。 
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第 6 章 


基础 设施 管理 





第 5 章 研 究 了 可 以 运行 数据 存储 的 各 种 基础 设施 组 件 和 范例 。 本 章 讨论 如 何 管 理 具 有 一 定 
规模 的 这 些 环境 。 首 先 讨论 最 小 的 单元 一 一 单个 主机 的 配置 和 规格 ， 然 后 讨论 主机 的 部 团 
和 组 件 之 间 的 编排 之 后 讨论 动态 发 现 基础 设施 的 状态 ， 以 及 状态 信息 的 发 布 一 一 服务 发 
现 ， 最 后 讨论 开发 所 用 到 的 技术 栈 ， 以 及 如 何 创建 大 型 生产 系统 对 应 的 开发 环境 。 

轻松 地 手动 管理 一 两 台 服 务 器 ， 而 且 服 务 稳定 运行 的 时 代 已 成 历史 。 现 在 必须 做 好 准备 ， 
以 较 少 的 人 手 来 维护 大 规模 、 复 杂 的 基础 设施 。 自 动 化 对 于 确保 重复 旦 可 靠 地 部 署 数据 存 
储 至 关 重 要 ， 关 平 应 用 程序 的 稳定 性 和 可 用 性 ， 以 及 新 功能 的 部 署 速度 。 我 们 的 目标 是 消 
除 重复 和 和 手动 的 流程 ， 并 通过 标准 化 流程 以 及 自动 化 ， 创 建 可 轻松 重建 的 基础 设施 。 


哪些 适合 自动 化 呢 ? 
































。 软件 安装 ， 包 括 操作 系统 、 数 据 库 以 及 相关 软件 和 工具 包 。 
。 根据 软件 功能 和 负载 需求 ， 配 置 软件 和 操作 系统 。 

。 为 新 建 的 数据 库 初 始 化 数据 。 

。 安装 相关 工具 ， 比 如 监控 客户 端 、 备 份 软件 和 运 维 工 具 。 
。 测试 基础 设施 的 配置 和 功能 。 

。 静态 的 和 动态 的 合 规 性 测试 。 


归根 结 底 ， 我 们 的 目标 是 可 以 持续 地 构建 和 重建 数据 库 基 础 设施 中 的 任何 组 件 ， 以 确保 在 
排查 问题 和 测试 时 ， 可 获知 各 组 件 当 前 和 过 去 的 状态 。 


诚然 ， 这 只 是 概述 ， 若 想 深入 了 解 相 关内 容 ， 建 议 参考 基 夫 ' 英里 斯 所 著 的 《基础 设施 即 
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代码 》 。 本 章 主要 讲解 如 何 通过 代码 管理 基础 设施 的 各 种 组 件 , 以 及 如 何 简化 数据 库 可 靠 
性 工程 师 的 工作 。 


6.1 版 本 控制 


为 了 实现 上 述 目标 ， 要 在 此 过 程 中 控制 所 有 组 件 的 版 本 ， 包 括 以 下 几 项 : 








源码 和 脚本 ， 
依赖 的 软件 库 和 包 ，; 
。 配置 文件 和 相关 信息 ， 
。 操作 系统 镜像 和 数据 库 二 进 制 文件 的 版 本 。 


VCS (version control system， 版 本 控制 系统 ) 是 所 有 软件 工程 流程 的 关键 。 数 据 库 工程 
师 、 系 统 工程 师 和 软件 工程 师 一 起 使 用 VCS 来 构建 、 部 署 和 管理 应 用 程序 和 基础 设施 。 
然而 传统 上 系统 工程 师 和 数据 库 工程 师 往 往 不 使 用 任何 VCS， 即 使 碰巧 使 用 了 某 个 VCS ， 
也 可 能 与 软件 工程 师 使 用 的 不 同 ， 导 致 基础 设施 的 版 本 和 代码 的 版 本 不 对 应 。 











流行 的 VCS 包括 : 


。 GitHub; 

。 BitBucket; 

。 Git; 

。 微软 的 Team Foundation Server; 


。 Subversion 。 








VCS 必须 是 基础 设施 中 所 有 内 容 的 真实 来 源 ， 包 括 脚本 、 配 置 文件 以 及 用 于 创建 数据 库 集 
群 的 定义 文件 。 当 需要 新 增 内 容 时 ， 必 须 将 其 添加 到 VCS 中。 在 修改 内 容 时 ， 需 要 先 签 
出 然后 进行 修改 ， 再 将 更 改 签 入 VCS 中 。 签 入 完成 后 ， 才 能 进行 评审 、 测 试 ， 最 后 就 可 
以 部 署 了 。 值 得 注意 的 是 ， 在 将 密码 存储 在 VCS 中 之 前 ， 应 先 对 其 进行 脱 敏 。 


6.2 ”配置 定义 


为 了 定义 配置 和 构建 数据 库 集群 的 方法 ， 需 要 使 用 一 系列 组 件 。 脚 本 可 能 使 用 的 是 
Windows PowerShell、Python、Shell Scripts、Perl 或 者 其 他 语言 ， 但 配置 管理 软件 可 能 使 
用 DSL (domain-specific language， 领 域 特定 语言 )。 流 行 的 配置 管理 软件 有 : 











时 Chef; 
。 Puppet; 
。 Ansible; 

















注 1: 本 书 中 文 版 已 由 人 民 邮 电 出 版 社 出 版 ， 详 见 https:/www.ituring.cn/book/1879。 一 -一 编者 注 
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SaltStack; 
。 CFEngine。 








通过 定义 配置 而 不 是 编写 脚本 ， 可 以 创建 易 读 的 组 件 ， 并 在 整个 基础 设施 中 复 用 。 定 义 配 
置 可 以 保证 一 致 性 ， 通 常 还 能 减少 向 配置 管理 中 添加 新 组 件 的 工作 量 。 





这 些 应 用 程序 具有 原 语 (primitive)， 在 Chef 中 叫 recipe， 在 Puppet 中 叫 manifest， 它 们 汇 
集成 cookbook 或 playbook。 为 了 满足 不 同 的 需求 ， 比 如 测试 环境 与 生产 环境 、 文 件 分 发 
方案 ， 以 及 依赖 库 或 者 模板 的 扩展 ， 这 些 cookbook 或 playbook 将 recipe 汇总 ， 而 recipe 
记录 了 用 于 覆盖 默认 值 的 属性 。playbook 的 最 终 形态 是 生成 基础 设施 特定 组 件 的 代码 ， 比 
如 安装 MySQL 或 者 NTP。 


定义 文件 本 身 可 能 会 变 得 非常 复杂 ， 所 以 应 该 共用 某 些 属性 。 需 要 把 这 些 属 性 参数 化 ， 以 


便 根 据 输入 在 不 同 的 环境 (例如 开发 环境 、 测 试 环境 和 生产 环境 ) 中 运行 相同 的 定义 文 
件 。 由 这 些 定义 及 其 应 用 程序 执行 的 操作 ， 必 须 是 宕 等 的 。 











景 等 

震 等 操作 指 重复 执行 该 操作 ， 输 出 结果 始终 相同 。 寡 等 操作 有 预期 状态 ， 不 
管 组 件 的 当前 状态 如 何 ， 徊 等 操作 都 会 使 该 组 件 进 入 预期 状态 。 比 如 更 新 配 
置 文件 以 设置 缓冲 区 缓存 的 大 小 ， 可 以 假设 该 配置 存在 ,但 这 种 假设 偏 于 简 
单 且 容易 出 错 。 或者， 可 以 向 配置 文件 中 插入 一 行 ， 如 果 该 行 已 经 存在 ， 就 
会 导致 重复 ， 该 操作 就 不 是 客 等 的 。 

应 该 先 用 脚本 检查 该 配置 是 否 存在 ， 如 果 该 配置 已 经 存在 ， 则 可 以 对 其 进行 
修改 ， 如 果 配 置 不 存在 ， 就 插入 一 行 ， 该 操作 就 是 知 等 的 。 





















































可 以 将 一 个 分 布 式 系统 (例如 Cassandra) 所 需 的 配置 定义 分 为 如 下 几 类 。 


主要 属性 : 
安装 方法 、 位 置 以 及 散 列 算法 ， 

一 集群 名 称 和 版 本 ， 
一 用 户 组 和 用 户 权 限 设 置 ， 
一 堆 大 小 ; 
一 JVM 配置 与 调 优 ; 
一 目录 布局 ， 
一 服务 配置 ， 
一 JXM 配置 ; 

一 虚拟 节点 。 

。 JBOD 配置 和 分 布 。 

垃圾 收集 行为 。 
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。 种 子 节点 发 现 。 
。 YAML 文件 的 配置 信息 。 
。 操作 系统 资源 的 配置 。 


外 部 服务 : 

一 PRIAM; 

- _ JAMM (Java 度量 指标 ) ; 
- 日 志 ， 

— OpsCenter。 


。 数据 中 心 与 机 架 布 局 。 


除了 需 等 和 参数 化 ， 所 有 组 件 都 需要 在 上 线 前 后 进行 适当 的 测试 ， 并 将 对 应 的 测试 集成 至 
监控 系统 和 日 志 管 理 系 统 中 ， 以 便 进行 错误 管理 和 持续 改进 。 












































上 线 前 后 的 测试 包括 验证 启动 和 停止 状态 是 否 符合 预期 ， 其 他 测试 着 重 于 变更 可 能 会 影响 
的 功能 ， 检 查 功 能 是 否 符合 预期 。 在 确定 变更 能 否 实施 之 前 ， 我 们 假设 已 经 通过 了 运 维 测 
试 、 性 能 测试 、 容 量 测 试 以 及 负载 测试 ， 测 试 主要 验证 功能 是 否 符 合 预期 。 关 于 客 等 的 真 
实 案例 ， 可 参考 Salesforce 开发 者 博客 “。 


6.3 ”基于 配置 的 构建 


定义 了 服务 器 规格 、 验 收 测 试 以 及 用 于 自动 化 和 构建 的 模块 之 后 ， 便 拥有 了 构建 数据 库 
所 需 的 所 有 源 代码 。 有 两 种 方式 可 以 做 到 这 一 点 : 烘焙 (baking) 和 油 前 (frying)。 看 到 
“烘焙 ”“ 油 前 ”“ 菜 单 ”“ 主 厨 ”等 ， 是 否 感觉 有 点 饿 了 ? 相关 信息 可 以 参考 John Willis 的 
文章 “DevOps and Immutable Delivery”。 














frying 涉及 在 主机 部 署 时 完成 动态 配置 。 创 建 好 主机 、 操 作 系 统 安 装 完成 ， 就 可 以 进行 动 
态 配置 了 。 前 面 提 到 的 配置 管理 应 用 程序 可 以 通过 frying 构建 和 部 署 基 础 设施 。 



































例如 通过 frying 创建 MySQL Galera 集群 ， 可 能 会 看 到 如 下 内 容 。 


。 服务 器 硬件 已 就 绪 (3 个 节点 )。 

。 操作 系统 安装 完成 。 

。 Chef Client 和 命令 行 工具 已 安装 ，cookbook 上 传 成 功 。 

。 cookbook 中 修改 操作 系统 权限 和 相关 配置 已 生效 。 

。 cookbook 中 默认 依赖 包 安 装 已 生效 。 
已 经 新 建 并 上 传 了 包含 集群 节点 属性 (比如 IP、 节 点 初始 化 、 包 名 称 ) 的 DataBag。 
节点 角色 (Galera 节点 ) 已 生效 : 
一 MySQL/Galera 二 进 制 包 安 装 完成 ; 




















注 2: Implementing Idempotent Operations with Salesforce. 
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一 MySQL 工具 包 及 脚本 安装 完成 

一 设置 基本 配置 ; 

一 执行 测试 ， 

一 服务 启动 和 停止 ; 

一 集群 创建 / 主 节 点 设置 ， 

一 剩余 节点 设置 ， 

一 执行 测试 。 
。 将 集群 注册 到 基础 设施 中 。 
baking 的 过 程 包括 获取 基础 镜像 ， 以 及 在 构建 时 配置 该 基础 镜像 。 该 过 程 会 创建 “黄金 镜 
像 ”， 该 镜像 用 作为 相同 任务 构建 所 有 主机 的 标准 模板 。 可 以 为 该 镜像 生成 快照 ， 保 存 起 
来 供 以 后 使 用 。AMI (Amazon Machine Images) 或 者 虚拟 机 镜像 就 是 baking 过 程 的 成 果 。 
在 此 过 程 中 ， 没 有 什么 是 动态 的 。 


Packer 是 来 自 Hashicorp 的 镜像 创建 工具 。Packer 可 以 为 不 同 环境 (例如 亚马逊 EC2 或 
VMware) 创建 镜像 ， 大 多 数 配 置 管理 工具 也 能 创建 baking 镜像 。 


6.4 维护 配置 


在 理想 情况 下 ， 配 置 管理 有 助 于 缓解 甚至 消除 配置 漂移 。 配 置 漂移 是 在 完成 baking 和 
frying， 以 及 部 署 之 后 发 生 的 。 尽 管 这 些 组 件 的 所 有 实例 初始 状态 完全 相同 ， 但 是 人 们 不 
可 避免 地 要 登录 、 调 试 、 安 装 软件 或 者 进行 一 些 实验 ， 因 此 会 留 下 一 些 痕迹 。 


不 可 变 基础 设施 是 指 在 部 署 后 不 能 更 改 或 者 修改 的 基础 设施 。 如 果 必 须要 做 一 些 变更 ， 应 
该 通过 版 本 控制 的 配置 定义 来 完成 ， 然 后 重新 部 署 服务 。 不 可 变 基 础 设施 很 有 吸引 力 ， 因 
为 具有 如 下 特性 。 
口 简单 性 
因为 不 允许 修改 ， 所 以 基础 设施 的 可 能 状态 将 大 大 减少 。 
口 可 预测 性 
状态 总 是 已 知 的， 排查 和 发 现 问题 会 非常 快 ， 并 且 在 定位 问题 时 易于 重 现 。 
口 可 恢复 性 
通过 重新 部 署 黄 金 镜 像 ， 易 于 恢复 到 刚 部 署 时 的 状态 ， 这 可 以 显著 缩短 MTTR。 这 些 镜 
像 是 已 知 并 经 过 测试 的 ， 可 以 随时 部 署 。 
话 虽 如 此 ， 不 可 变 基 础 设施 的 开销 可 能 非常 大 。 例 如 拥有 20 个 节点 的 MySQL 集群 需要 修 
改 一 个 参数 ， 在 签 入 修改 的 配置 之 后 ， 为 了 让 变更 生效 ， 需 要 重新 部 署 集群 中 的 每 个 节点 。 
折 中 起 见 ， 可 以 允许 那些 频繁 、 自 动 化 且 可 预测 的 变更 ， 而 仍然 禁止 手动 变更 ， 这 样 可 以 
保留 可 预测 性 和 可 恢复 性 ， 同 时 减少 运 维 开销 。 
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配置 定义 的 实施 
如 何 实施 这 些 策略 呢 ? 


1. 配置 同步 
前 面 提 到 的 许多 配置 工具 提供 同步 功能 ， 这 意味 着 任何 修改 都 将 被 覆盖 ， 这 些 配 置 会 强制 覆盖 
成 标准 配置 。 但 是 ， 这 依赖 于 状态 完整 地 同步 ， 如 果 漏 掉 了 某 些 区 域 ， 就 会 导致 配置 漂移 。 


2. 组 件 重新 部 署 

借助 合适 的 工具 能 发 现 配 置 的 差异 ， 并 通过 重新 部 署 来 彻底 消除 差异 。 有 些 环境 可 能 
要 经 常 重新 部 署 ， 或 者 在 某 组 件 上 发 生 手动 登录 /交互 后 重新 部 署 。 在 这 种 情况 下 ， 通 
baking 解决 方案 更 适用 ， 因 为 该 方案 消除 了 部 署 后 进行 配置 的 开销 。 


配置 的 定义 和 管理 ， 有 助 于 确保 正确 构建 每 个 服务 器 或 者 实例 ， 并 保持 状态 不 变 。 部 署 过 
程 有 更 高 层 的 抽象 一 一 跨 服务 基础 设施 定义 和 部 署 编排 。 


6.5 ”基础 设施 定义 和 编排 


前 面 研 究 了 单机 配置 和 部 署 ， 无 论 是 物理 服务 器 、 虚 拟 机 还 是 云 主机 。 下 面 看 看 主机 组 ， 
毕竟 很 少 会 单独 管理 一 个 数据 库 实例 。 假 设 我 们 一 直 在 使 用 分 布 式 数据 存储 ， 那 么 需要 能 
够 一 次 构建 、 部 署 和 操作 多 个 系统 。 


用 于 部 署 基 础 设施 的 编排 和 管理 工具 与 部 署 (frying 或 baking) 应 用 程序 集成 ， 以 创建 
整 的 基础 设施 ， 这 包括 可 能 不 使 用 主机 的 服务 (例如 虚拟 资源 或 平台 即 服务 的 配置 )。 
些 工具 为 通过 代码 来 创建 整个 数据 中 心 或 服务 提供 了 理想 的 解决 方案 ， 使 得 开发 人 员 和 
维 人 员 能 够 从 头 到 尾 地 构建 、 集 成 和 局 动 基础 设施 。 

通过 将 基础 设施 抽象 为 可 归档 、 通 过 版 本 进行 控制 的 代码 ， 这 些 工 具 可 以 与 配置 管理 应 用 
程序 集成 ， 用 于 自动 化 部 署 主机 和 应 用 程序 。 同 时 为 自动 化 工具 设置 好 必要 的 底层 基础 设 
施 资源 和 服务 ， 以 便 其 能 高 效 地 完成 相应 的 工作 。 

在 讨论 基础 设施 定义 时 ， 经 常 使 用 术语 栈 。 你 可 能 听 说 过 LAMP 栈 (Linux、Apache、 
MySQL、PHP) 或 MEAN 栈 (MongoDB、Express.js、Angular.js、Node.js)， 这 些 都 是 通 
用 解决 方案 栈 。 特 定 的 栈 可 能 针对 特定 的 应 用 程序 或 一 组 应 用 程序 。 在 讨论 通过 工具 进行 
自动 化 和 编排 基础 设施 的 定义 时 ， 栈 甚至 有 更 具体 的 含义 ， 后面 会 引用 这 里 的 定义 。 

这 些 栈 的 结构 会 对 团队 中 数据 库 可 靠 性 工程 师 履 行 职责 产生 重大 影响 。 接 下 来 讨论 各 种 栈 
结构 及 其 对 数据 库 可 靠 性 工程 师 角 色 的 影响 。 


6.5.1 单一 基础 设施 定义 
在 该 栈 中 ， 组 织 的 所 有 应 用 程序 和 服务 都 在 一 个 大 文件 中 集中 定义 。 换 言 之 ， 所 有 数据 库 
集群 都 将 在 同一 文件 中 定义 。 在 多 个 应 用 程序 和 服务 使 用 一 个 或 多 个 数据 库 的 典型 环境 
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， 可 能 有 多 个 应 用 程序 及 其 关联 数据 库 在 同一 文件 中 定义 。 


中 
单一 基础 设施 定义 确实 没有 优点 ， 倒 有 很 多 缺点 。 从 编排 /基础 设施 即 代码 的 全 局 角度 来 
看 ， 可 以 将 问题 阐释 如 下 。 





。 如 果 要 更 改定 义 ， 需 要 测试 整个 定义 。 这 意味 着 测试 是 缓慢 而 脆弱 的 ， 将 促使 人 们 避免 
变更 ， 从 而 导致 基础 设施 僵化 且 脆 弱 。 

。 变更 也 更 容易 破坏 所 有 内 容 ， 而 不 是 限制 在 基础 设施 的 一 个 组 件 之 中 。 

。 构建 测试 环境 或 开发 环境 时 , 不 得 不 将 所 有 内 容 构建 在 一 起 , 而 不 是 单独 构建 部 分 组 件 ， 
后 者 更 易于 聚焦 。 

。 变更 通常 仅 限于 了 解 整个 栈 的 少 部 分 人 ， 这 会 成 为 变更 的 瓶颈 并 且 影 响 迭 代 速度 。 





如 果 团 队 引 入 了 Terraform 之 类 的 新 工具 ， 并 改 用 这 些 工具 重新 部 署 和 配置 整个 基础 设施 ， 
就 会 发 现 处 于 整体 定义 的 栈 中 。 在 考虑 基础 设施 定义 时 ， 会 有 水 平 拆 分 (一 个 栈 中 的 各 
层 ) 和 垂直 拆 分 的 需求 〈 根 据 功能 划分 栈 ， 以 便 一 个 服务 使 用 一 个 栈 ， 而 不 是 所 有 服务 共 
用 一 个 栈 )。 


6.5.2” 拭 直 拆 分 

如 图 6-1 所 示 ， 通 过 将 定义 拆 分 为 每 个 服务 独 有 一 个 定义 文件 ， 可 以 减少 定义 的 大 小 ， 降 
低 复 杂 性 。 因 此 ， 之 前 一 个 定义 文件 可 以 拆 分 为 两 个 。 这 样 可 以 缩小 仅 更 改 一 项 服务 时 的 
故障 域 ， 测 试 工 作 量 随 之 减 半 ， 相 应 地 缩小 开发 环境 和 测试 环境 的 规模 。 























垂直 拆 分 定义 


应 用 程序 1 : 实用 程 应 用 程序 2 
节点 1 : 点 节点 2 
: 7 
: / 4 
: 


ps 
2 ， py 
/ ' Ne 
[| 负载 均衡 作 ， 《 负载 均衡 
一 = ae oe 


数据 库 集群 | 数据 库 集群 














图 6-1: 垂直 拆 分 
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如 果 有 多 个 应 用 程序 使 用 同一 数据 库 层 (这 很 常见 )， 将 更 具 挑 战 性 。 此 时 需要 创建 3 个 定 
义 ， 一 个 是 共享 数据 库 定义 ， 另 外 两 个 是 单独 的 服务 定义 ， 不 包括 数据 库 层 ， 如 图 6-2 所 示 。 





垂直 拆 分 定义 


应 用 程序 1 应 用 程序 2 
点 节点 2 


ee 


数据 库 集群 














图 6-2: 在 共享 数据 库 情况 下 ， 垂 直 拆 分 服务 定义 


现在 ， 定 义 文件 变更 的 故障 域 进一步 缩小 ， 因 为 每 个 定义 更 小 且 更 集中 。 但 是 ， 其 中 仍 有 
两 个 应 用 程序 与 数据 库 耦 合 ， 需 要 进行 集成 测试 ， 以 确保 数据 库 层 的 变更 和 另外 两 个 应 用 
程序 栈 兼容 。 因 此 ， 测 试 仍然 需要 构建 和 部 署 所 有 应 用 程序 。 拆 分 应 用 程序 后 ， 能 否 串 行 
或 并 行 地 构建 和 测试 应 用 程序 ， 取 决 于 基础 设施 的 约束 。 








6.5.3 ”分 层 (水 平定 义 ) 

如 果 采 用 已 拆 分 的 应 用 程序 定义 ， 则 可 以 按 层 划分 定义 文件 ， 也 称 水 平 拆 分 。 因 此 ， 标准 
的 Web 应 用 程序 可 能 包含 Web 服务 器 栈 、 应 用 程序 服务 器 栈 和 数据 库 栈 。 从 该 层面 拆 分 
基础 设施 定义 的 主要 优势 是 ， 进 一 步 缩小 了 故障 域 。 换 言 之 ， 如 果 需 要 更 改 数据 库 服务 器 
的 配置 ， 无 须 担 心 可 能 会 破坏 Web 服务 器 的 构建 。 


在 垂直 拆 分 和 水 平 拆 分 之 后 ， 将 面临 新 的 、 有 趣 的 复杂 性 。 具 体 而 言 ， 栈 之 间 的 通信 需要 
共享 数据 。 数 据 库 负载 均衡 的 虚拟 IP 必须 与 应 用 程序 服务 器 共享 ， 但 服务 栈 有 自己 的 定 
义 。 这 种 动态 基础 设施 需要 一 个 服务 目录 ， 以 确保 基础 设施 的 任何 组 件 都 能 与 其 他 组 件 高 
效 共享 状态 ， 以 便 进行 通信 和 集成 。 
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6.6 ”验收 测试 和 合 规 性 

利用 自动 化 和 基础 设施 即 代 码 益 处 颇 多 ， 但 我 们 还 未 提 及 验收 测试 和 合 规 性 。 有 了 基础 设 
施 的 镜像 ， 就 可 以 利用 ServerSpec 之 类 的 工具 (使 用 描述 性 语言 ) 来 定义 基础 设施 镜像 的 
测试 。 这 有 利于 对 基础 设施 实践 TDD (test-driven development， 测 试 驱动 开发 )， 进 而 提 
共 了 将 基础 设施 和 软件 工程 相 结 合 的 绝 佳 机 会 。 

















借助 ServerSpec 之 类 的 自动 化 测试 框架 ， 可 以 深入 研究 合 规 性 和 安全 性 ， 这 是 ServerSpec 
的 用 武之 地 ， 这 样 就 可 以 创建 针对 数据 库 安 全 性 和 合 规 性 的 测试 套件 了 。InSpec 是 
ServerSpec 的 一 个 插件 ， 可 堪 此 用 。 


6.7 服务 目录 


随 着 动态 地 自动 构建 、 扩 展 和 销毁 环境 ， 所 有 基础 设施 组 件 都 能 使 用 的 当前 状态 必须 保存 
在 一 个 数据 源 中 。 服 务 发 现 是 一 种 抽象 ， 它 将 服务 和 负载 均衡 的 特定 名 称 和 端口 映射 到 语 
义 名 称 。 例 如 mysql-replicas 是 一 种 语义 名 称 ， 它 可 以 包含 任意 数量 的 MySQL 主机， 这些 
主机 从 主 库 复制 数据 。 服 务 发 现 的 作用 是 能 够 通过 语义 名 称 而 不 是 卫 地 址 或 主机 名 进行 引 
用 ， 服 务 目 录 中 的 信息 可 以 通过 HTTP 或 DNS 访问 。 


撰写 本 文 时 ， 常 见 的 服务 发 现 工具 有 : 

















。 Zookeeper; 
。 Consul.io 
。 Etcd; 

自 研 工具 。 





对 于 这 样 的 服务 目录 ， 数 据 库 可 靠 性 工程 师 可 能 见 过 不 少 案例 ， 下 面 列 出 一 些 (后 面 探讨 
具体 架构 时 会 详 述 )。 
口 数据 库 故障 转移 
通过 向 注册 中 心 登记 可 写 服 务 器 的 IP， 可 以 为 负载 均衡 创建 模板 。 当 IP 发 生 切 换 时 ， 
将 重新 生成 负载 均衡 的 配置 并 加 载 。 


口 分 片 
向 应 用 程序 主机 提供 可 写 分 片 的 信息 。 

















口 Cassandra 种 子 节点 
告知 正在 启动 的 节点 到 哪里 寻找 种 子 节点 。 


服务 目录 可 以 非常 简单 ， 仅 仅 记录 服务 相关 的 数据 以 便 集 成 ， 也 可 以 包含 其 他 许多 功能 ， 








例如 “健康 检查 ”的 数据 ， 这 样 通过 服务 目录 就 可 以 判断 实例 是 否 正常 工作 ， 还 可 以 在 注 
册 目 录 存 储 键 值 对 。 


6.8 完成 拼图 


在 较 高 的 层次 上 有 许多 信息 ， 下 面 以 在 MySQL 中 数据 库 可 靠 性 工程 师 日 常 如 何 使 用 这 些 





全 








( 


概念 为 例 说 明 。 简 单 起 见 ， 假 设 在 亚马逊 EC2 环境 中 运行 。 你 的 任务 是 为 用 户 的 主 数据 库 








集群 是 分 片 的 ， 并 且 需 要 扩容 ) 搭建 一 个 MySQL 新 集群 ， 工 具 如 下 : 


。 MySQL 5.6 社区 版 ， 


用 于 复制 管理 和 故障 转移 的 MySQL MHA; 
用 于 保存 集群 状态 的 Consul。 


当然 ， 用 于 用 户 数 据 库 MySQL 分 片 的 Terraform 和 Chef cookbook 文件 已 经 签 入 GitHub 








了 。 构 建 过 程 应 该 不 需要 任何 手动 更 改 。 你 可 能 会 抱怨 ， 应 该 将 容量 分 析 和 数据 库 分 片 的 
部 署 也 自动 化 ， 但 这 只 是 你 开展 工作 的 第 3 个 月 ， 还 没 来 得 及 这 么 做 。 


检查 部 署 日 志 ， 将 看 到 上 次 部 署 的 MySQL 分 片 情况 ， 并 将 其 版 本 与 Terraform 和 Chef 代 
码 的 当前 版 本 做 比较 ， 以 确认 此 后 没有 任何 变更 。 一 切 就 绪 后 ， 可 以 开始 部 署 了 。 首 先 ， 
以 plan 选项 运行 Terraform， 以 显示 执行 路 径 并 验证 不 会 发 生 任何 意外 。 假 设 一 切 顺 利 ， 
可 以 继续 执行 Terraform 命令 来 构建 分 片 。 





Terraform 执行 chef provisioner， 通 过 查询 Consul 获得 最 新 的 shard_id， 并 增 1 作为 新 的 


S 


hard_id， 包 含 以 下 步骤 。 


1. 选择 合适 的 AMI， 在 两 个 可 用 区 域 中 启动 3 个 EC2 实例 ， 作 为 MySQL 分 片 的 主机 。 


.在 这 些 主机 上 配置 MySQL， 并 启动 服务 。 


3. 在 shard_id 命名 空间 下 ， 将 每 个 市 点 注册 到 Consul。 


co ~ Dm nh 上 


第 一 个 节点 注册 为 master， 随 后 注册 的 节点 用 作 故 障 转 移 。 
启动 数据 复制 过 程 。 


. 选择 适用 于 MySQL MHA 管理 器 的 AMI， 在 两 个 可 用 区 域 中 启动 两 个 EC2 实例 。 
. 在 shard_id 命名 空间 下 ， 将 MHA manager 注册 到 Consul。 

. 利用 Consul 的 节点 数据 配置 MHA。 

.启动 MHA replication manager。 

. 执行 一 系列 故障 转移 测试 。 








这 样 就 在 Consul 中 注册 了 由 MHA 管理 的 MySQL 集群 ， 此 后 有 些 任务 会 自动 执行 ， 包 括 : 





注 


E 3 : Leonidas Galanis, Yuan Wang, Shawn R. Jeffery, et al. Locating Data Sources in Large Distributed Systems. 
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。 使 用 Consul 的 备份 脚本 ,开始 自动 对 主 服务 器 进行 快照 ， 
。 位 于 AMI 中 的 监控 代理 ， 开 始 自动 向 监控 系统 推送 度量 值 和 日 志 。 




















最 后 ， 如 果 觉 得 没 问 题 ， 在 Consul 中 把 数据 库 分 片 标记 为 active。 代 理 服务 器 会 将 其 添加 
到 配置 文件 并 重新 加 载 ， 应 用 程序 服务 器 将 其 标识 为 可 用 状态 ， 并 开始 向 其 发 送 数据 。 


6.9 开发 环境 


在 开发 环境 或 沙 箱 中 ， 本 地 测试 对 于 该 工作 流程 来 说 非常 重要 。 在 将 变更 签 入 VCS 之 前 ， 
应 该 清楚 其 影响 。 可 重复 性 是 本 章 的 主要 目标 之 一 ， 这 意味 着 沙 箱 在 软件 和 配置 上 必须 尽 
可 能 接近 实际 环境 ， 即 操作 系统 、 配 置 管理 、 服 务 编排 ， 甚 至 服务 目录 都 相同 。 














前 面 讨论 部 署 时 提 到 了 Packer。Packer 能 够 以 相同 的 配置 创建 多 种 镜像 ， 包 括 工作 站 虚拟 
机 镜像 。 在 工作 站 上 使 用 Vagrant 之 类 的 工具 ， 可 以 下 载 最 新 的 镜像 、 构 建 虚拟 机 ， 其 至 
运行 标准 测试 套件 ， 以 验证 所 有 功能 均 按 预期 运行 。 








完成 变更 ， 进 行 了 测试 ， 并 对 VCS 中 任何 新 变更 再 次 测试 之 后 ， 就 可 以 将 这 些 变更 直接 
签 入 团队 的 VCS 中 ， 为 集成 和 部 署 做 准备 。 

















6.10 ”小 结 


使 用 基础 设施 即 代 码 、 自 动 化 和 版 本 控制 是 可 靠 性 工程 师 的 必 备 技能 ， 数 据 库 可 靠 性 工程 
师 自然 也 不 例外 。 运 用 本 章 所 讲 的 工具 和 技术 ， 可 以 为 工程 团队 消除 琐事 、 减 少 错误 并 创 
建 自助 服务 的 部 署 系统 。 


第 7 章 将 深入 研究 基础 设施 的 关键 组 成 部 分 : 备份 和 恢复 。 数 据 库 层 的 一 个 显著 特点 是 ， 
数据 持久 性 和 可 用 性 至 关 重 要 。 尽 管 大 多 数 其 他 环境 可 以 作为 组 件 进行 构建 并 快速 、 轻 松 
地 部 署 ， 但 数据 库 需 要 安全 地 维护 和 管理 大 量 数据 。 有 通用 的 工具 可 以 用 于 此 操作 ， 这 正 
是 接 下 来 要 讨论 的 内 容 。 
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第 5 章 和 第 6 章 重点 讨论 了 基础 设施 的 设计 和 管理 ， 介 绍 了 如 何 构建 、 部 署 和 管理 运行 数 
据 库 的 分 布 式 基础 设施 ， 包 括 快速 添加 节点 以 扩容 或 替换 故障 节点 。 本 章 讨 论 重要 的 问 
题 : 数据 备份 和 恢复 。 


大 多 数 人 认为 数据 备份 和 恢复 枯燥 乏味 ， 是 辛劳 而 无 聊 的 工作 。 这 类 工作 通常 由 初级 工程 
师 、 外 包 商 ， 以 及 团队 不 爱 用 的 第 三 方 工具 来 承担 。 我 们 以 前 使 用 过 一 些 糟糕 的 备份 软 
件 ， 对 这 一 点 深 有 同感 。 


尽管 如 此 ， 备 份 与 恢复 仍然 是 运 维 中 最 重要 的 流程 之 一 。 在 市 点 之 间 、 数 据 中 心 之 间 移 动 
数据 ， 以 及 对 数据 进行 归档 ， 是 企业 最 宝贵 的 资产 (数据) 的 持续 活动 。 应 高 度 重视 数据 
备份 与 恢复 ， 而 不 是 将 其 视 为 运 维 的 二 等 公民 。 不 仅 要 了 解数 据 恢复 的 目标 ， 还 应 该 熟悉 
操作 和 监控 流程 。DevOps 思想 倡导 每 个 人 都 应 该 有 机 会 编写 代码 ， 并 将 代码 部 署 到 生产 
环境 中 。 建 议 每 个 工程 师 至 少 参与 一 次 关键 数据 的 恢复 流程 。 


作为 满足 实际 需求 (恢复 ) 的 一 种 手段 ， 我 们 创建 并 存储 数据 副本 (也 称 备份 和 存档 )。 
有 时 恢复 是 美好 而 轻松 的 ， 例 如 配置 一 个 审计 环境 或 备用 环境 。 然 而 通常 情况 下 ， 恢 复 是 
为 了 快速 替换 故障 市 点 ， 或 者 向 现 有 集群 中 添加 市 点 以 扩容 。 

如 今 ， 在 分 布 式 环境 中 ， 备 份 和 恢复 领域 存在 新 的 挑战 。 一 如 往常 ， 大 多 数 本 地 数据 集 大 
小 适中 ， 最 多 几 TB。 不 同 的 是 ， 这 些 本 地 数据 集 只 是 分 布 式 数 据 集 的 一 部 分 ， 恢 复 一 个 
市 点 相对 容易 ， 但 是 在 集群 中 保持 状态 更 具 挑 战 性 。 
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7.1 核心 概念 
首先 介绍 备份 和 恢复 的 核心 概念 。 对 于 有 经 验 的 数据 库 工 程 师 或 系统 工程 师 ， 其 中 一 些 知 
识 可 能 比较 初级 。 若 是 如 此 ， 可 选择 跳 过 相关 内 容 。 


7.1.1 物理 备份 与 逻辑 备份 

物理 上 ， 备 份 数据 库 是 备份 数据 所 在 的 文件 。 这 意味 着 保持 数据 库 的 特定 文件 格式 。 数 据 
库 中 通常 有 一 组 元 数据 ， 用 于 定义 包含 哪些 文件 以 及 数据 库 结构 。 如 果 你 备份 了 文件 ， 并 
且 和 希望 另 一 个 数据 库 实 例 能 够 使 用 这 些 文件 ， 则 需要 备份 并 存储 数据 库 所 依赖 的 相关 元 数 
据 ， 以 便 备份 具有 可 移植 性 。 


逻辑 备份 是 将 数据 库 中 的 数据 导出 为 男 一 种 格式 ， 理 论 上 这 种 格式 可 以 移植 到 任何 系统 。 
通常 仍 会 有 一 些 元 数据 ， 但 这 种 备份 更 关注 备份 的 时 间 点 。 例 如 导出 所 有 插入 语句 ， 用 这 
些 语句 填充 空 数据 库 使 其 变更 到 最 新 状态 ， 或 者 以 JSON 格式 保存 每 一 行 。 因 此 ， 人 逻辑 备 
份 往往 非常 耗 时 ， 因 为 需要 逐 行 提取 数据 ， 而 不 是 通过 物理 副本 和 写 操作 复制 。 类 似 地 ， 
恢复 涉及 数据 库 的 所 有 常规 开销 ， 比 如 加 锁 、 重 做 或 撤销 日 志 。 


这 种 二 分 法 的 一 个 例子 是 ， 基 于 行 的 复制 和 基于 语句 的 复制 之 间 的 区 别 。 在 许多 关系 型 数 
据 库 中 ， 基 于 语句 的 复制 意味 着 提交 时 会 追加 一 个 DML (data manipulation language， 数 
据 操 作 语 言 ， 也 称 插入 、 更 新 、 赫 换 、 删 除 ) 语句 的 日 志 。 这 些 语句 同步 到 副本 ， 并 在 副 
本 中 重 放 。 另 一 种 复制 方法 是 基于 行 或 CDC (change data capture， 数 据 变 更 捕获 )。 


7.1.2 脱 机 备份 与 联机 备份 

脱 机 备份 (或 冷 备 份 )， 是 指 在 关闭 数据 库 实例 的 情况 下 进行 备份 。 这 样 在 没有 其 他 进程 
读 写 数 据 的 情况 下 ， 无 须 担心 维护 某 个 时 间 点 的 状态 ， 即 可 快速 复制 文件 。 这 是 一 种 理想 
的 工作 状态 ， 但 非常 罕见 。 

在 联机 备份 (或 热 备份 ) 中 ， 仍 然 需要 复制 所 有 文件 ， 但 要 先 获取 一 致 的 时 间 点 数据 快照 
(包含 备份 开始 时 已 存在 的 所 有 数据 )， 这 样 就 增加 了 复杂 性 。 此 外 ， 在 备份 期 间 如 果 有 访 
问 数据 库 的 实时 流量 ， 还 必须 注意 不 要 让 其 超过 存储 层 的 1O 吞吐 量 。 即 使 有 所 限制 ， 用 
于 保持 一 致 性 的 机 制 也 会 大 大 增加 应 用 程序 的 延迟 。 


7.1.3 全 量 备份 、 增 量 备份 和 差 量 备份 
无 论 采用 哪 种 方法 ， 全 量 备份 都 意味 着 完整 备份 整个 本 地 数据 集 。 对 于 较 小 的 数据 集 而 
言 ， 全 量 备份 的 耗 时 微不足道 ， 但 对 于 10 TB 的 数据 ， 可 能 会 非常 耗 时 。 


差 量 备份 指 仅 备 份 上 次 全 量 备份 以 来 变更 的 数据 。 在 实践 中 ， 由 于 数据 采用 页 之 类 的 结 
构 ， 所 以 通常 备份 的 数据 量 比 变更 的 多 。 页 有 特定 的 大 小 ， 比 如 16 KB 或 64 KB， 其 中 包 
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含 多 行 数据 。 增 量 备份 将 备份 任何 数据 已 修改 的 页 ， 因 此 ， 较 大 的 页 需要 备份 的 数据 比 变 
更 的 数据 多 得 多 。 

增 量 备份 类 似 于 差 量 备份 ， 只 是 会 用 最 后 一 次 备份 的 数据 ( 增 
找 变 更 数据 的 时 间 点 。 因 此 ， 如 果 要 恢复 增 量 备 份 ， 则 可 能 需 
及 一 个 或 多 个 增 量 备份 ， 以 到 达 当 前 时 间 点 。 


了 解 这 些 概念 之 后 ， 下 面 讨论 在 选择 备份 和 恢复 的 有 效 策 略 时 需要 考虑 的 各 种 问题 。 


7.2 ”恢复 的 考量 

第 一 次 评估 一 个 有 效 的 策略 时 ， 应 该 考虑 SLO ( 见 第 2 章 )。 上 有 具体 而 言 ， 需 要 考虑 可 用 性 
和 持久 性 指标 。 任 何 策略 都 需要 你 在 预定 义 的 正常 运行 时 间 内 恢复 数据 。 而 且 ， 备 份 需要 
足够 快 ， 以 满足 数据 持久 性 需求 。 如 果 每 天 备份 ， 并 且 两 次 备份 之 间 的 事务 日 志 仍然 保存 
在 节点 级 别 的 存储 中 ， 则 在 下 一 次 备份 之 前 这 些 事务 日 志 很 可 能 会 丢失 。 


此 外 ， 还 需要 考虑 数据 集 在 整个 生态 系统 中 的 功能 。 例 如 订单 可 能 存储 在 一 个 关系 型 数 
据 库 中 ， 所 有 内 容 都 在 事务 中 提交 ， 因 此 很 容易 针对 数据 库 中 的 其 他 数据 进行 恢复 。 但 
是 ， 在 数据 库 中 生成 订单 之 后 ， 存 储 在 消息 队列 或 键 值 对 存储 系统 中 的 事件 可 能 会 触发 工 
作 流 。 这 些 系统 可 能 是 最 终 一 致 的 ， 其 至 可 能 是 易 失 的 ， 依 赖 关系 型 数据 库 进行 引用 或 恢 
复 。 在 恢复 时 ， 如 何 考 虑 这 些 工作 流 ? 


在 快速 开发 的 环境 中 ， 备 份 中 存储 的 数据 可 能 是 由 某 个 版 本 的 应 用 程序 写 入 和 利用 的 ， 而 
恢复 之 后 运行 的 是 另 一 版 本 的 应 用 程序 。 应 用 程序 如 何 与 旧 数 据 交 互 ? 若 数 据 有 版 本 信 
息 ， 那 么 很 好 。 但 是 你 必须 了 解 一 点 ， 并 做 好 应 对 准备 ;否则 ， 逻 辑 上 应 用 程序 可 能 会 破 
坏 数据 ， 并 造成 更 大 的 问题 。 


在 规划 数据 恢复 时 ， 必 须 考虑 其 中 每 一 个 因素 ， 以 及 许多 无 法 预料 的 其 他 因素 。 如 第 3 章 
所 述 ， 我 们 不 可 能 对 所 有 可 能 发 生 的 事情 都 做 好 准备 。 但 是 ， 这 是 一 项 关键 服务 ， 保 证 数 
据 可 恢复 是 数据 库 可 靠 性 工程 师 最 重要 的 职责 之 一 。 因 此 ， 对 数据 可 恢复 性 的 规划 必须 尽 
量 全 面 ， 并 考虑 尽 可 能 多 的 六 在 问题 。 


7.3 恢复 场景 


鉴于 此 ， 下 面 讨论 可 能 需要 恢复 的 事件 和 操作 类 型 ， 以 便 满 足 各 种 需求 。 首 先 划 分 为 计划 
内 的 场景 和 计划 外 的 场景 。 如 果 把 恢复 视 为 应 对 紧急 情况 的 工具 ， 会 限制 团队 仅 在 紧急 情 
况 和 模拟 演练 中 使 用 该 工具 ， 而 如 末 能 将 恢复 纳入 日 常 工作 ， 就 可 以 在 紧急 情况 下 更 熟练 
地 执行 恢复 流程 ， 提 高 成 功率 。 类 似 地 ， 我 们 将 有 更 充足 的 数据 来 确定 恢复 策略 是 否 符 合 
SLO。 通 过 日 常 多 次 执行 ， 可 以 更 容易 地 获得 样本 集 ， 该 样本 集 可 以 包含 上 限 ， 并 且 可 以 
用 某 种 程度 的 确定 性 来 表示 ， 以 用 于 规划 目的 。 


量 备 份 或 全 量 备 份 ) 作为 查 
要 恢复 最 后 的 全 量 备份 ， 以 






















































































备份 和 恢复 | 91 





.3.1 计划 内 的 恢复 场景 


7 
需要 考量 的 日 常 恢复 需求 是 什么 ?列举 如 下 : 


。 构建 新 的 生产 节点 和 集群 ， 

。 构建 不 同 的 环境 ， 

。 数据 的 提取 、 转 换 和 加 载 ， 以 及 下 游 数 据 存 储 流水 线 ， 
。 运 维 测试 。 





在 执行 这 些 操作 时 ， 请 确保 将 流程 添加 到 运 维 可 见 性 系统 中 。 
口 时 间 
运行 每 个 组 件 以 及 整个 流程 需要 多 长 时 间 ? 解压 ? 复制 ? 应 用 日 志 ? 测试 呢 ? 
口 大 小 
备份 在 压缩 和 未 压缩 的 情况 下 有 多 大 ? 
口 吞吐 量 
硬件 承受 了 多 大 的 压力 ? 
































这 些 数据 有 助 于 提前 处 理 容量 问题 ， 从 而 确保 恢复 流程 是 可 行 的 。 


1. 构建 新 的 生产 节点 和 集群 

无 论 数据 库 是 否 是 不 可 变 基础 设施 的 一 部 分 ， 都 有 可 能 定期 重新 构建 。 当 然 ， 这 会 利用 恢 
复 流 程 。 很 少将 数据 库 设置 为 自动 伸缩 ， 因 为 启动 一 个 新 节点 并 将 其 加 入 集群 比较 耗 时 。 
团队 应 该 确定 一 个 日 程 ， 定 期 将 新 市 点 加 入 集群 ， 以 测试 这 些 流程 。Netflix 开发 的 Chaos 
Monkey 工具 可 以 随机 关闭 系统 ， 这 样 可 以 测试 整个 监控 、 通 知 、 分 析 和 恢复 流程 。 如 果 
尚未 这 样 做 ， 可 以 将 其 作为 运 维 团队 定期 执行 的 流程 清单 中 的 一 部 分 ， 以 确保 团队 成 员 都 
熟悉 流程 。 这 些 活动 不 仅 能 够 测试 全 量 恢 复 和 增 量 恢复 ， 还 能 够 将 恢复 融入 复制 流 中 ， 以 
将 节点 加 入 服务 。 


2. 构建 不 同 的 环境 

为 开发 、 集 成 测试 、 运 维 测试 和 演示 构建 环境 不 可 避免 。 其 中 一 些 环境 需要 恢复 完整 的 数 
据 ， 这 需要 利用 节点 和 整个 集群 的 恢复 能 力 。 有 些 环境 还 有 其 他 需求 ， 比 如 用 于 功能 测试 
的 数据 子 集 恢复 ， 以 及 出 于 保护 用 户 隐私 目的 的 数据 脱 敏 ， 这 样 就 可 以 测试 时 间 点 恢复 以 
及 特定 对 象 的 恢复 。 这 些 都 与 标准 的 全 量 数据 集 恢复 非常 不 同 ， 对 于 运 维 人 员 或 应 用 程序 
损坏 时 恢复 数据 非常 有 用 。 通 过 创建 允许 对 象 级 和 特定 时 间 点 恢复 的 API， 可 以 将 这 类 流 
程 自动 化 ， 提 高 熟练 度 。 

3. 提取 、 转 换 和 加 载 以 及 下 游 数据 存储 流水 线 

与 构建 环境 类 似 ， 把 数据 从 生产 数据 库 导入 流水 线 以 进行 下 游 分 析 和 流 式 数据 存储 ， 这 个 
过 程 非常 适合 采用 特定 时 间 点 恢复 流程 、 对 象 级 恢复 流程 和 APIL。 
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4. 运 维 测试 

在 各 种 测试 场景 中 ， 都 需要 数据 副本 。 一 些 测 试 ( 比 如 容量 测试 和 负载 测试 ) 需要 完整 的 
数据 集 ， 适 于 采用 全 量 恢复 流程 。 功 能 测试 可 能 需要 较 小 的 数据 集 ， 适 于 采用 特定 时 间 点 
和 对 象 级 恢复 。 


恢复 测试 本 身 可 以 成 为 一 个 连续 操作 。 除 了 在 日 常 场景 中 利用 恢复 流程 ， 还 可 以 将 恢复 设 
置 为 持续 运行 ， 这 人 允许 进行 自动 测试 和 验证 ， 以 尽早 发 现 可 能 会 破坏 备份 过 程 的 任何 问 
题 。 当 提 到 这 个 过 程 时 ， 很 多 人 会 问 如 何 验证 恢复 是 否 成 功 。 
备份 时 可 以 生成 测试 所 用 的 大 量 数据 ， 例 如 : 
。 自动 递增 的 最 新 ID， 
。 对 象 的 行 计数 ， 
只 能 插入 的 (因此 可 以 视 为 不 可 变 的 ) 数据 子 集 的 校 验 和 ， 
。 schema 定义 文件 的 校 验 和 。 


与 任何 测试 一 样 ， 验 证 备份 是 否 成 功 的 测试 应 该 分 层 进行 。 有些 测 试 会 很 快 成 功 或 失败 ， 
这 应 该 是 测试 的 第 一 层 ， 例 如 元 数据 / 对 象 定义 的 校 验 和 对 比 ， 数 据 库 实例 的 启动 ， 以 及 
成 功 连接 到 复制 线程 。 有 些 操作 可 能 需要 更 长 时 间 ， 比 如 数据 校 验 和 以 及 表 计 数 ， 应 该 在 
稍 后 的 过 程 中 验证 。 


7.3.2 ”计划 外 的 恢复 场景 

有 了 所 有 可 以 使 用 的 日 常 计划 的 场景 ， 恢 复 流 程 应 该 进行 了 很 好 的 调 优 、 撰 写 了 详细 的 文 
档 、 进 行 了 良好 的 实践 ， 并 保证 基本 没有 bug 和 问题 。 因 此 ， 计 划 外 的 场景 很 少 非常 可 怕 。 
在 计划 外 的 场景 练习 中 ， 团 队 应 该 看 不 到 任何 区 别 。 下 面 列 出 每 种 计划 外 的 场景 ， 并 就 每 种 
可 能 需要 演练 恢复 流程 的 情况 做 深入 讨论 : 

。 人 为 错误 ; 

。 应 用 程序 错误 ， 

。 基础 设施 服务 ， 

。 操作 系统 和 硬件 错误 ; 

。 硬件 故障 ; 

。 数据 中 心 故 障 。 


1. 人 为 错误 

理想 情况 下 ， 很 少 发 生 人 为 错误 。 如 果 你 正在 帮工 程 师 构建 防御 ， 应 该 可 以 添加 很 多 预防 
措施 。 不 过 ， 总 会 有 因 运 维 人 员 误 操作 而 造成 损害 的 情况 发 生 。 例 如 在 数据 库 上 执行 更 新 
或 删除 时 ， 缺 少 WHERE 子 句 ;或 者 在 生产 环境 中 执行 了 数据 清理 脚本 ， 而 不 是 在 测试 环境 
中 ; 或 者 执行 了 正确 的 脚本 ,但 是 时 间 不 对 ， 又 或 者 在 错误 的 主机 上 执行 了 脚本 。 这 些 错 
误 通 常会 被 立即 发 现 和 恢复 。 然 而 ， 在 某 些 情况 下 ， 这 些 变化 的 影响 可 能 在 几 天 或 几 周 内 
都 无 法 得 知 ， 因 而 无 法 有 效 地 检测 出 来 。 
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2. 应 用 程序 错误 

在 讨论 的 所 有 场景 中 ， 应 用 程序 错误 是 最 可 怕 的 ， 因 为 它们 可 能 非常 危险 。 应 用 程序 不 断 
修改 与 数据 存储 的 交互 方式 ， 其 中 许多 应 用 程序 还 管理 引用 完整 性 ， 以 及 指向 文件 或 第 三 
方 D 等 资源 的 外 部 指针 。 引 入 破坏 性 的 改动 数据 、 删 除数 据 ， 或 以 在 相当 长 一 段 时 间 内 
都 不 会 被 注意 到 的 方式 添加 错误 数据 的 变更 ， 对 应 用 程序 而 言 是 非常 容易 的 。 


3. 基础 设施 服务 
第 6 章 介绍 了 基础 设施 管理 服务 的 强大 。 然 而 这 些 系统 的 破坏 性 可 能 不 亚 于 其 作用 ， 编 辑 
文件 、 指 向 不 同 的 环境 或 推送 不 正确 的 配置 ， 都 会 导致 严重 的 后 果 。 


4. 操作 系统 和 硬件 错误 
操作 系统 及 其 所 连接 的 硬件 都 是 由 人 构建 的 系统 ， 因 此 可 能 会 由 于 没有 记录 文档 或 鲜 为 人 
知 的 配置 而 导致 错误 和 意外 后 果 。 在 数据 恢复 的 上 下 文中 ， 从 数据 库 到 操作 系统 缓存 、 文 
件 系 统 和 控制 器 ， 再 到 磁盘 都 是 如 此 。 数 据 损 坏 或 数据 丢失 ， 比 我 们 想象 的 要 普遍 得 多 。 
然而 我 们 对 这 些 机 制 的 信任 和 依赖 营造 了 一 种 文化 ， 在 这 种 文化 中 ， 人 们 相信 数据 的 完整 
性 而 不 是 持 怀 疑 态 度 。 










































































静默 损坏 

2008 年 ，Netflix 曾经 发 生 过 这 种 操作 系统 和 硬件 错误 。 磁 盘 的 错误 检测 和 
纠正 机 制 采 用 ECC (error correction code)。ECC 可 以 自动 纠正 1 bit 的 错误 ， 
F 且 能 够 检测 到 2 bit 的 错误 。ECC 可 以 检测 到 的 错误 的 汉 明 距离 是 可 纠正 
错误 的 两 倍 。 因 此 ， 在 512 字 节 局 区 的 硬盘 中 ， 如 果 可 以 纠正 46 字 节 的 错 
误 ， 则 它 最 多 可 以 检测 到 92 字 节 的 错误 。 无 法 纠正 的 错误 会 报告 给 磁盘 控 
前 器 ， 磁 盘 控 制 器 将 增加 S.M.A.R.T 中 “无 法 纠正 错误 ”的 计数 ， 但 多 于 92 
字 节 的 错误 会 被 视 为 正常 数据 而 直接 传递 给 控制 器 ， 并 扩散 到 备份 数据 中 ， 
这 可 能 会 酿 成 大 祸 ! 

这 就 是 为 什么 所 谓 的 “ 云 ”或 者 “Serverless” 计 算 值得 高 度 怀疑 。 如 果 不 了 
解 实现 细节 ， 就 无 法 确认 数据 完整 性 具有 最 高 优先 级 。 数 据 完整 性 的 重要 性 
通常 被 低估 ， 其 至 因 性 能 原因 而 被 忽略 。 无 知 便 无 力 ! 

校 验 和 文件 系统 (比如 ZFS) 会 对 每 个 磁盘 块 做 校 验 ， 探 查 损坏 的 数据 。 如 
果 使 用 涉及 镜像 或 奇偶 校 验 的 RAID， 其 至 可 以 修复 数据 。 
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5. 硬件 故障 

硬件 组 件 可 能 会 发 生 故 障 ， 这 在 分 布 式 系统 中 经 常 发 生 。 磁 盘 、 内 存 、CPU、 控 制 器 以 及 
网 络 设备 经 常 发 生 故 障 。 这 些 硬件 故障 会 导致 节点 失效 ， 或 厄 点 延 时 增加 进而 导致 系 统 不 
可 用 。 共 享 系统 中 的 设备 (比如 网 络 设备 ) 故障 会 影响 整个 集群 ， 导 致 集群 不 可 用 ; 或 使 
整个 集群 分 裂 成 较 小 的 集群 ， 而 小 集群 并 不 知道 网 络 已 经 分 区 ， 因 此 可 能 会 快速 导致 数据 
出 现 较 大 差异 ， 需 要 修复 。 
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6. 数据 中 心 故障 
有 时 ， 网 络 硬件 故障 会 引发 级 联 故障 ， 导 致 整个 数据 中 心 发 生 故障 。 存 储 系统 的 背 板 拥塞 
偶尔 也 会 导致 级 联 故障 ， 例 如 2012 年 AWS 发 生 的 故障 。 有 时 ， 飓 风 、 地 震 、 交 通 事故 等 
都 可 能 导致 整个 数据 中 心 发 生 故 障 。 在 这 种 情况 下 恢复 系统 ， 即 使 对 最 稳健 的 恢复 策略 而 
言 也 是 一 种 考验 。 





7.3.3 ”场景 的 范围 
列举 了 需要 恢复 数据 的 计划 内 的 场景 和 计划 外 的 场景 之 后 ， 接 下 来 券 虑 事件 的 范围 ， 以 便 
确定 合适 的 应 对 方案 。 考 虑 以 下 儿 个 方面 : 


。 局 部 或 单 节点 ; 
。 集群 范围 
。 数据 中 心 或 多 个 集群 

在 局 部 或 单 节点 范围 内 ， 恢 复 限 于 单个 节点 。 比 如 向 集群 中 添 加 新 节点 以 扩容 或 替换 故障 
节点 ， 又 或 者 进行 凑 动 升级 ， 逐 个 节点 进行 恢复 ， 这 些 都 属于 局 部 范围 。 

在 整个 集群 范围 内 ， 集 群 中 的 所 有 节点 都 需要 恢复 。 比 如 数据 发 生 破 坏 性 改变 或 者 删除 时 ， 
这 种 数据 损坏 会 通过 复制 扩散 到 所 有 节点 。 或 许 需要 构建 一 个 新 集群 以 测试 容量 。 

数据 中 心 或 多 个 集群 范围 是 指 需要 恢复 一 个 物理 位 置 或 者 区 域 的 所 有 数据 。 这 可 能 是 因为 
共享 的 存储 系统 发 生 故 障 ， 或 者 某 种 灾害 导致 数据 中 心 发 生 灾难 性 故障 ， 也 可 能 因为 按 计 
划 部 署 一 个 新 的 元 余 区 域 。 









































除了 按 地 域 划分 范围 ， 还 可 以 按 数 据 集 把 范围 分 为 以 下 3 类 : 


。 单个 数据 对 象 ， 

多 个 数据 对 象 ， 
。 数据 库 元 数据 。 
单个 数据 对 象 范围 指 需要 恢复 某 个 数据 对 象 的 部 分 或 全 部 数据 。 如 前 所 述 ，DELETE 操作 
删除 的 数据 比 预 期 多 导致 的 事故 ， 就 属于 单个 数据 对 象 范 围 。 多 个 数据 对 象 范围 是 指 某 个 
数据 库 中 多 个 〈 可 能 所 有 ) 数据 对 象 的 数据 需要 恢复 。 元 数据 范围 是 指 存储 在 数据 库 中 的 
数据 是 完好 的 ， 但 丢失 了 使 数据 库 可 用 的 元 数据 ， 比 如 用 户 信息 、 安 全 权限 信息 、 与 操作 
系统 文件 的 映射 信息 等 。 























7.3.4 不 同 场景 的 影响 
除了 定义 需要 恢复 数据 的 场景 ， 以 及 列举 不 同 场 景 的 恢复 范围 ， 定 义 潜 在 影响 也 很 重要 ， 
以 便 选 择 恢复 方案 。 对 于 不 影响 SLO 的 数据 丢失 ， 可 以 有 条 不 紊 地 处 理 ， 逐 步 减轻 数据 丢 
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失 造 成 的 影响 。 对 于 会 违背 SLO、 更 具 破 坏 性 的 变更 ， 在 进行 任何 长 期 清理 之 前 ， 必 须 考 
虑 分 类 和 快速 恢复 服务 。 可 以 将 恢复 方案 按 影 响 分 为 以 下 3 类 : 











。 影响 SLO， 应 用 程序 退出 ， 或 者 大 部 分 用 户 受 影响 ; 
。 SLO 很 可 能 受 影 响 ， 部 分 用 户 受 影响 ; 
只 影响 功能 ， 不 影响 SLO。 


基于 恢复 场景 、 范 围 和 产生 的 影响 ， 有 72 种 可 能 的 场景 组 合 需 要 考虑 。 这 实在 太 多 了 ， 
无 法 面面俱到 。 好 在 很 多 场景 可 以 采用 相同 的 恢复 方案 。 即 使 有 这 种 重合 ， 也 无 法 为 所 有 
可 能 的 情况 都 做 周详 的 计划 。 因 此 ， 必 须 建立 多 层次 的 恢复 方案 ， 以 确保 有 足够 的 恢复 工 
有 具 。 下 面 利用 本 市 所 讲 内 容 定 义 恢复 策略 。 


7.4 恢复 策略 分 解 


称 其 为 “恢复 策略 ”而 不 是 “备份 策略 ”是 有 原因 的 。 数 据 恢复 是 进行 备份 的 原因 ， 备 
份 只 是 达到 最 终 目 的 的 手段 ， 因 此 它 取 决 于 真正 的 需求 :以 给 定 参数 恢复 。 对 于 “数据 
库 有 备份 吗 ” 这 个 简单 问题 ， 应 该 这 样 回答 :“ 有 ， 可 以 按 多 种 方式 恢复 ， 有 具体 取决 于 恢 
复 场 景 。 只 是 简单 给 出 肯定 回答 是 轻率 的 ， 而 且 传递 了 一 种 错误 的 安全 感 ， 这 种 行为 不 
负责 任 且 危险 。 


有 效 的 数据 库 恢 复 策 略 ， 不 但 需要 以 有 效 的 方式 应 对 多 种 场景 ， 也 包括 数据 丢失 / 损坏 检 
测 、 恢 复 测 试 以 及 恢复 有 效 性 验证 。 


7.4.1 策略 第 1 步 : 检测 

尽早 发 现 可 能 的 数据 丢失 或 者 损坏 至 关 重 要 。 对 于 7.3.2 市 讨论 的 人 为 错误 和 应 用 程序 错 
误 ， 当 发 现 这些 问 题 时 ， 它 们 可 能 已 经 持续 了 几 天 、 几 周 甚至 更 入。 这 意味 着 ， 在 意识 到 
数据 需要 备份 时 ， 备 份 可 能 已 经 晚 了 。 因 此 ， 对 于 所 有 工程 而 言 检测 都 是 高 优先 级 的 。 除 
了 尽早 检测 数据 丢失 和 损坏 ， 在 早期 检测 失败 的 情况 下 ， 确 保有 尽 可 能 大 的 恢复 窗口 也 非 
常 重要 。 下 面 探究 之 前 讨论 过 的 不 同 故障 场景 ， 以 及 检测 和 扩大 恢复 窗口 的 可 行 方案 。 


1. 人 为 错误 
缩短 发 现 数据 丢失 的 时 间 的 一 个 重要 影响 因素 是 ， 在 生产 环境 中 不 允许 执行 手动 变更 或 临 
时 变更 。 创 建 脚本 包装 器 或 者 API 级 别 的 抽象 ， 可 以 指引 工程 师 通过 有 效 的 步骤 来 确保 所 
有 变更 尽 可 能 安全 、 经 过 测试 、 文 档 完善 并 推广 到 相应 的 团队 。 


有 效 的 脚本 包装 器 或 API 可 以 : 


。 通过 参数 化 在 多 个 环境 中 执行 ; 
。 在 演练 阶段 评估 并 验证 运行 结果 ， 
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。 包含 代码 执行 状况 的 测试 套件 ， 

。 在 执行 后 验证 变更 是 否 符合 预期 ， 

。 通过 相同 的 API 进行 软 删 除 或 轻松 回 深 ， 

。 按 IDD 记录 所 有 修改 的 数据 ， 以 识别 变更 和 恢复 数据 。 


移 除 过 程 中 的 临时 操作 和 手动 操作 ， 便 于 调试 工程 师 追 踪 所 有 变更 。 所 有 变更 都 将 被 记录 
下 来 以 便 追 滴 ， 不 会 淹没 在 日 常 活动 中 。 最 后 ， 通 过 对 修改 或 删除 等 操作 引入 中 间 阶 段 ， 
以 及 构建 数据 的 轻松 回 滚 ， 可 以 为 发 现 和 修正 变更 导致 的 问题 赢得 更 大 的 时 间 窗 口 。 但 这 
并 不 能 保证 ! 虽然 手动 流程 可 能 记录 得 非常 好 ， 但 人 们 可 能 会 忘记 在 自动 化 流程 中 设置 日 


志 ， 或 者 会 绕 过 日 志 。 








2. 应 用 程序 错误 
尽早 检测 到 应 用 程序 错误 的 关键 是 数据 验证 。 当 软件 工程 师 引 入 了 新 对 象 或 属性 时 ， 数 据 
库 可 靠 性 工程 师 需 要 与 他 们 合作 ， 确 定 可 以 在 应 用 程序 之 外 的 下 游 进行 的 数据 验证 。 


和 所 有 测试 一 样 ， 初 始 工作 应 集中 于 快速 测试 。 快 速 测试 可 为 关键 数据 组 件 提供 快速 反馈 ， 
例如 文件 的 外 部 指针 、 用 于 保证 引用 完整 性 的 关系 映射 ， 以 及 PIT (personal identification 
information， 个 人 身份 信息 )。 随 着 数据 和 应 用 程序 的 增长 ， 这 项 验证 的 成 本 会 更 高 ， 也 
更 有 价值 。 应 当 营造 一 种 文化 ， 让 工程 师 对 数据 质量 和 完整 性 负责 ， 而 不 是 对 存储 引擎 负 
责 ， 这 既 能 保证 使 用 不 同 数据 库 的 灵活 性 ， 又 能 让 人 们 对 实验 和 快速 开发 应 用 程序 功能 

有 信心 。 数 据 验证 是 一 道 防 护栏 ， 让 大 家 更 勇敢 也 更 有 信心 。 


3. 基础 设施 服务 

任何 对 基础 设施 具有 灾难 性 影响 、 需 要 恢复 的 事故 ， 都 应 能 通过 监控 系统 迅速 发 现 。 话 虽 
如 此 ， 还 是 有 些 变 更 不 易 察觉 ， 但 可 能 会 造成 数据 丢失 或 损坏 ， 影 响 甚至 破坏 可 用 性 。 使 
用 黄金 镜像 并 将 其 和 基础 设施 中 的 组 件 定期 进行 对 比 ， 有 助 于 快速 发 现 基 础 设施 与 测试 镜 
像 之 间 的 差异 。 类 似 地 ， 使 用 版 本 控制 的 基础 设施 有 助 于 发 现 基础 设施 的 差异 ， 以 便 向 相 
关 工程 师 报 警 或 者 自动 修复 。 


4. 操作 系统 和 硬件 错误 

与 基础 设施 服务 一 样 ， 监 控 日 志和 度量 值 可 以 快速 捕获 大 部 分 问题 。 对 于 非 标准 的 边缘 场 
景 ,需要 经 过 一 些 思考 和 拥有 相关 经 验 才能 发 现 错误 ， 并 将 它 添加 到 监控 中 以 便 尽早 检测 
到 ， 磁 盘 块 校 验 和 就 是 一 个 例子 。 并 不 是 所 有 文件 系统 都 会 做 校 验 和 检查 ， 对 于 重要 数 
据 ， 团 队 需 要 仔细 选择 合适 的 能 通过 校 验 和 发 现 静态 错误 的 文件 系统 。 


5. 硬件 与 数据 中 心 故障 
与 基础 设施 服务 一 样 ， 利 用 第 4 章 所 讲 的 监控 很 容易 发 现 这 些 故 障 。 我 们 已 经 做 到 了 ， 很 
棒 吧 ? 
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7.4.2 策略 第 2 步 : 分 层 存储 
有 效 的 恢复 策略 依赖 数据 存放 在 多 个 存储 层 ， 不 同 的 存储 层 可 以 满足 不 同 的 恢复 需求 ， 这 
不 仅 保 证 了 合理 的 性 能 ， 也 保证 了 不 同 场景 下 适当 的 成 本 和 持续 性 。 


1. 在 线 高 性 能 存储 

大 部 分 数据 存储 产品 在 这 种 存储 池上 运行 ， 其 特点 是 高 吞吐 量 、 低 延 时 ， 因 此 价格 也 较 
。 当 恢复 时 间 非 常 重要 时 ， 将 数据 库 近 期 的 备份 以 及 相关 增 量 备份 放 在 该 层 非常 关键 。 
常 而 言 ， 只 有 近期 数据 的 少量 备份 会 驻 留 于 此 ， 以 便 能 在 最 常见 和 影响 最 大 的 场景 中 快 
速 恢复 。 典 型 例子 有 : 在 服务 发 生 故 障 后 ， 将 整个 数据 库 复制 到 新 加 入 生产 环境 中 的 节 
点 ,或 者 因 流 量 快速 增加 而 需要 扩容 的 情况 。 


2. 在 线 低 性 能 存储 

这 种 存储 池 通 常用 于 存储 对 延 时 不 敏感 的 数据 。 这 类 存储 凶 通 常 由 吞吐 量 低 、 对 延 时 不 敏 
、 廉 价 的 大 容量 磁盘 组 成 。 因 其 容量 较 大 ， 可 以 将 需要 保存 较 长 时 间 的 备份 存储 在 该 
。 相 对 不 频繁 、 影 响 较 小 或 者 运行 时 间 较 长 的 备份 场景 ， 可 以 使 用 这 些 较 早 的 备份 。 典 
例子 是 寻找 并 修复 早期 检测 遗漏 的 应 用 程序 错误 或 人 为 错误 。 


3. 离线 存储 

离线 存储 指 磁带 存储 或 者 类 似 于 Amazon Glacier 这 样 的 存储 。 这 类 存储 是 异地 的 ， 通 常 需 
要 车 辆 将 其 运 到 需要 恢复 数据 的 区 域 。 它 可 以 满足 业务 连续 性 和 审计 要 求 ， 但 不 能 用 于 日 
常 的 恢复 。 但 是 ， 出 于 容量 和 费用 方面 的 萎 虑 ， 这 类 存储 的 可 用 存储 空间 较 大 ， 可 以 存储 
企业 生命 期 内 或 者 至 少 合 规 期 限 内 的 所 有 数据 。 


4. 对 象 存储 

对 象 存储 是 一 种 将 数据 作为 对 象 而 非 文 件 或 块 进行 管理 的 存储 系统 。 对 象 存储 提供 了 传统 
存储 系统 所 不 具备 的 功能 ， 例 如 应 用 程序 可 用 的 API、 对 象 的 多 版 本 以 及 基于 复制 机 制 和 
分 布 式 的 高 可 用 性 。 对 象 存 储 系统 使 大 量具 有 完整 版 本 和 历史 的 对 象 具 有 可 用 性 、 扩 展 性 
和 自修 复 性 。 这 对 于 轻松 恢复 非 结构 化 、 不 依赖 与 其 他 数据 的 关系 来 获得 一 致 性 的 对 象 是 
理想 的 选择 。 此 外 ， 它 也 有 助 于 从 应 用 程序 错误 或 人 为 错误 中 恢复 。Amazon S3 是 廉价 、 
可 扩展 且 可 靠 的 对 象 存 储 的 典型 。 
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这 些 层 中 的 每 一 层 ， 都 是 跨 场景 可 恢复 性 综合 策略 中 的 一 部 分 。 因 为 我 们 无 法 预测 所 有 可 
能 的 场景 ， 所 以 每 一 层 都 是 必需 的 。 接 下 来 讨论 利用 这 些 存储 层 提供 可 恢复 性 的 工具 。 


7.4.3 策略 第 3 步 : 多 样 的 工具 集 
下 面 基于 场景 和 评估 选项 来 评估 所 需 的 恢复 流程 。 前 面 介绍 了 一 系列 可 用 工具 ， 接 下 来 仔 
细 了 解 这 些 工具 。 



































副本 不 是 备份 

本 书 不 把 副本 视 为 一 种 有 效 地 备份 数据 以 便 进 行 恢复 的 方法 。 复 制 过 程 是 言 
目的 ， 可 能 会 扩散 人 为 错误 、 应 用 程序 错误 和 数据 损坏 。 应 将 副本 视 为 数据 
移动 和 同步 的 必要 工具 ， 而 不 是 用 于 数据 恢复 的 工具 。 如 果 有 人 说 ， 他 们 使 
用 副本 恢复 数据 ， 请 投 以 鄙视 的 目光 。 同 理 ，RAID 也 不 是 备份 ， 而 是 元 余 。 














1. 全 量 物理 备份 

需要 对 所 有 级 别 进行 全 量 恢复 : 节点 级 别 、 集 群 级 别 和 数据 中 心 级 别 。 快 速 、 可 移植 的 全 
量 恢 复 非常 强大 ， 在 动态 环境 中 是 必需 的 。 全 量 备 份 可 以 快速 构建 方 点 以 扩容 ， 或 在 故障 
期 间 替 换 故障 节点 。 可 以 通过 网 络 或 通过 与 对 应 主机 /实例 直接 连接 的 方式 进行 全 量 备份 。 
要 想 执行 全 量 恢复 ， 就 需要 全 量 备份 。 


关系 型 数据 库 的 全 量 备份 需要 锁定 数据 库 以 获得 可 以 复制 的 一 致 快照 ， 或 者 能 够 在 复制 期 
间 关 闭 数据 库 。 在 异步 复制 的 环境 中 ， 不 能 保证 副本 与 主 库 写 入 是 同步 的 ， 因 此 ， 应 尽 可 
能 从 主 库 执行 全 量 备份 。 在 创建 数据 库 快 照 、 文 件 系统 或 基础 设施 的 快照 之 后 ， 应 将 快照 
复制 到 其 他 存储 系统 中 。 


对 只 追加 写 型 数据 库 (比如 Cassandra) 的 全 量 备份 ， 涉 及 在 操作 系统 级 别 利用 操作 系统 的 
人 硬 链接 特性 做 快照 。 由 于 这 类 分 布 式 数据 存储 中 的 单个 市 点 并 没有 全 量 数据 ， 因 此 该 备份 
被 视 为 最 终 一 致 的 。 恢 复数 据 需要 将 节点 重新 加 入 集群 ， 此 时 系统 内 部 的 同步 机 制 最 终 使 
市 点 达到 最 新 状态 。 


线 上 高 性 能 存储 的 全 量 备 份 可 快速 切换 为 线 上 集群 。 这 类 备份 通常 是 未 压缩 的 ， 因 为 解压 
缩 很 耗 时 。 线 上 低 性 能 存储 上 的 全 量 备 份 用 于 构建 不 同 的 环境 ， 例 如 用 于 测试 、 分 析 或 数 
据 取证 。 压 缩 是 在 有 限 的 存储 空间 内 更 长 时 间 地 保留 全 量 备份 的 一 种 有 效 方式 。 


2. 增 量 物理 备份 

如 前 所 述 ， 增 量 备份 可 以 弥合 上 次 全 量 备 份 与 其 后 某 个 时 间 点 之 间 的 差距 。 增 量 物理 备份 
通常 包含 已 更 改 的 数据 块 。 无 论 从 备份 还 是 存储 的 性 能 影响 方面 来 看 ， 全 量 备份 的 开销 都 
很 大 ; 但 通过 增 量 备份 可 以 快速 地 基于 之 前 的 全 量 备份 达到 最 新 状态 ， 以 便 在 集群 中 正常 
使 用 。 


3. 全 量 逻 辑 备份 与 增 量 逻辑 备份 
全 量 逻 辑 备份 具有 可 移植 性 ， 并 简化 了 数据 子 集 的 提取 。 这 种 备份 不 用 于 节点 的 快速 
复 ， 而 用 于 取证 、 在 节点 之 间 移动 数据 以 及 恢复 大 数据 集中 的 特定 数据 子 集 。 


4. 对 象 存储 
与 逻辑 备份 一 样 ， 对 象 存 储 可 以 轻松 恢复 指定 对 象 。 事实 上 ， 对 象 存储 针对 此 用 例 做 了 优 
化 ,并 且 可 以 根据 需要 以 API 编程 的 方式 轻松 恢复 对 象 。 
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7.4.4 策略 第 4 步 : 测试 

对 于 像 恢 复 这 样 重要 的 基础 设施 流程 ， 令 人 惊讶 的 是 测试 常常 被 抛 在 一 边 ， 而 测试 是 确保 备 
份 能 正常 用 于 恢复 的 重要 手段 。 关 于 恢复 的 测试 往往 是 间歇 性 的 〈 例 如 每 月 或 每 季度 一 次 )。 
尽管 获胜 于 无 ， 但 两 次 测试 之 间 有 较 长 的 时 间 间 隔 ， 甚 间 备 份 过 程 可 能 会 停止 工作 。 

将 测试 添加 到 正在 进行 的 流程 中 有 两 种 有 效 的 方法 。 第 1 种 方法 是 将 恢复 纳入 日 常 流程 。 
这 样 ， 可 以 持续 对 恢复 进行 测试 ， 从 而 快速 识别 错误 和 故障 。 此 外 ， 持 续 恢 复 可 以 获得 恢 
复 用 时 的 相关 数据 ， 这 对 于 校准 恢复 流程 以 符合 SLA 至 关 重 要 。 将 恢复 不 断 集成 到 日 常 流 
程 中 的 示例 包括 : 


。 构建 集成 环境 ， 
。 构建 测试 环境 ， 
。 定期 替换 生产 集群 中 的 节点 。 


如 有 果 环 境 中 无 法 重建 数据 存储 ， 也 可 以 创建 一 个 持续 的 测试 过 程 ， 从 而 持续 地 恢复 最 近 的 
备份 ， 进 而 验证 恢复 是 否 成 功 。 无 论 测 试 过 程 是 否 已 经 自动 化 ， 都 要 偶尔 测试 异地 备份 。 


这 些 步 又 可 以 为 不 同 的 恢复 场景 提供 可 靠 的 保障 。 根 据 场景 和 工具 ， 可 以 评估 开发 和 资源 
方面 的 需求 。 


7.5 既定 恢复 策略 


如 前 所 述 ， 需 要 准备 好 应 对 多 种 故障 场景 。 为 此 ， 需 要 一 个 丰富 的 工具 集 以 及 使 用 这 些 工 
具 的 计划 。 


7.5.1 在 线 快速 存储 的 全 量 备份 和 增 量 备份 

该 策略 是 日 常 恢复 中 最 基础 、 最 核心 的 部 分 。 当 生产 环境 或 测试 环境 需要 快速 添加 新 节点 
时 ， 可 以 采用 该 策略 。 

1. 用 例 

该 策略 的 主要 应 用 场景 如 下 : 


。 更 换 故 障 市 点 ，; 

2 添加 新 节点 

。 构建 用 于 功能 集成 的 测试 环境 ， 
。 构建 用 于 运 维 测试 的 测试 环境 。 


由 于 备份 期 间 的 延迟 较 大 ， 因 此 全 量 备 份 通常 最 多 每 天 进行 一 次 。 只 要 保留 一 周 的 数据 ， 就 
可 以 快速 访问 最 近 的 任何 更 改 。 这 涉及 数据 库 未 压缩 的 7 个 全 量 备份 ， 以 及 增 量 备份 中 的 所 
有 变更 。 某 些 环境 没有 足够 的 容量 或 预算 ， 因 此 可 能 会 在 保留 时 长 和 备份 频率 间 进 行 权 衡 。 
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2. 检测 

当 节 点 或 组 件 发 生 故 障 需 要 恢复 时 ， 监 控 能 发 出 通知 。 通 过 容量 规划 评审 和 预测 可 以 判断 
何 时 需要 添加 更 多 节点 来 扩容 。 

3. 分 层 存 储 

由 于 生产 环境 中 的 故障 需要 快速 恢复 ， 因 此 需要 高 性 能 的 在 线 存储 。 同 样 ， 测 试 速度 必须 
尽 可 能 跟 上 开发 速度 。 























4. 工具 箱 
全 量 物理 备份 和 增 量 物理 备份 是 最 高 效 的 恢复 方案 ， 因 而 在 此 处 最 为 合适 。 因 为 恢复 时 间 
的 要 求 ， 所 以 这 些 备 份 未 被 压缩 。 














5. 测试 
因为 经 常 进行 集成 测试 ， 所 以 会 经 常 遇 到 此 类 恢复 场景 。 在 虚拟 环境 中 ， 每 天 在 集群 中 添 
加 一 个 新 节点 ， 即 可 每 天 执行 恢复 流程 。 此 外 ， 鉴 于 该 流程 的 重要 性 ， 因 而 引入 了 持续 恢 
复 流 程 。 


7.5.2 ”在线 慢 速 存储 的 全 量 备份 和 增 量 备份 
这 里 讨论 的 慢 速 存储 ， 访 问 速度 较 慢 ， 更 便宜 ， 存 储 空间 也 更 大 。 


1. 用 例 
该 策略 的 主要 应 用 场景 如 下 : 





。 应 用 程序 错误 ， 

。 人 为 错误 ; 

。 数据 损坏 修复 ; 

。 构建 运 维 测试 环境 。 


当 因 上 线 新 功能 、 变 更 失败 或 迁移 不 当 导 致 数据 损坏 时 ， 就 需要 能 够 访问 并 提取 大 量 数据 
用 于 恢复 。 这 种 场景 中 的 恢复 流程 最 为 混乱 ， 因 为 要 考虑 各 种 潜在 问题 。 在 恢复 期 间 ， 通 
常 需要 编写 脚本 ， 如 果 没 有 进行 有 效 的 测试 ， 这 些 脚 本 自身 可 能 会 导致 更 多 bug 和 错误 。 

将 全 量 备份 压缩 后 从 高 性 能 存储 复制 到 低 性 能 存储 ， 是 当前 策略 下 获取 全 量 备份 的 简单 
方法 。 由 于 压缩 和 更 便宜 的 存储 ， 根 据 预 算 和 需求 保留 一 个 月 其 至 更 长 时 间 变 得 可 能 。 
在 快速 变更 的 环境 中 ， 出 现 数据 损坏 和 完整 性 问题 的 概率 要 高 得 多 ， 这 意味 着 备份 和 恢复 
更 耗 时 。 

2. 检测 

数据 验证 是 决定 是 否 需 要 恢复 的 关键 。 当 验证 失败 时 ， 工 程 师 可 以 使 用 这 些 备份 来 查 明 发 
生 了 什么 、 何 时 发 生 的 ， 然 后 提取 正确 的 数据 来 修复 生产 环境 。 
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3. 分 层 存储 
由 于 该 策略 需要 保存 备份 很 长 时 间 ， 因 此 需要 低 性 能 的 在 线 存 储 。 廉 价 的 大 容量 存储 是 不 
错 的 选择 。 





4. 工具 箱 
在 这 种 情况 下 ， 全 量 物理 备份 和 增 量 物理 备份 最 为 合适 。 由 于 对 恢复 时 间 要 求 不 高 ， 因 而 
此 类 备份 也 会 被 压缩 。 除 了 物理 备份 ， 还 可 以 利用 逻辑 备份 (例如 复制 日 志 ) 来 提高 恢复 
的 灵活 性 。 

















5. 测试 
由 于 这 种 恢复 不 常 发 生 ， 因 此 持续 的 自动 恢复 流程 对 于 确保 所 有 备份 都 可 用 且 状 态 良 好 至 
关 重 要 。 偶 尔 演 练 特定 恢复 场景 (例如 一 个 表 或 一 个 数据 范围 ) 有 助 于 团队 熟悉 恢复 流程 
和 工具 。 








7.5.3 ”离线 存储 

到 目前 为 止 ， 这 种 方式 最 便宜 ， 提 取 数 据 也 最 慢 。 

1. 用 例 

该 策略 的 主要 应 用 场景 如 下 : 

。 审计 与 合 规 性 

。 业务 连续 性 。 

实际 上 ， 这 种 方式 专注 于 罕见 但 关键 的 需求 。 审 计 与 合 规 性 通常 需要 追溯 7 年 甚至 更 久之 
前 的 数据 ， 但 是 它们 对 时 间 不 敏感 ， 可 能 需要 相当 长 一 段 时 间 来 准备 和 展示 。 业 务 连 续 性 
要 求 数 据 副 本 远离 当前 生产 系统 的 物理 位 置 ， 以 确保 在 发 生 灾难 时 可 以 重建 。 尽 管 在 这 种 
情况 下 时 间 紧 急 ， 但 可 以 采用 灵活 的 方式 来 恢复 。 


将 全 量 备 份 压缩 后 从 低 性 能 存储 复制 到 离线 存储 ， 是 当前 策略 下 获取 全 量 备份 的 简单 方 
法 。 备 份 保留 7 年 甚至 更 长 时 间 不 仅 是 可 能 的 ， 而 且 是 必需 的 。 

















2. 检测 
检测 在 该 策略 中 并 不 重要 。 
3. 分 层 存 储 


由 于 该 策略 需要 保存 备份 很 长 时 间 ， 因 此 需要 廉价 的 大 容量 存储 ， 磁 带 或 Amazon Glacier 
之 类 的 解决 方案 通常 是 不 错 的 选择 。 








4. 工具 箱 
全 量 备份 在 这 里 最 合适 。 由 于 对 恢复 时 间 不 敏感 ， 因 此 这 些 备份 也 会 被 压缩 。 
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5. 测试 
这 里 的 测试 策略 类 似 于 在 线 慢 速 存储 层 。 


7.5.4 ”对象 存储 


对 象 存 储 的 一 个 示例 是 Amazon S3。 对 象 存 储 的 特点 是 通过 编程 访问 ， 而 不 是 通过 物理 访问 。 


1. 用 例 
该 策略 的 主要 应 用 场景 如 下 : 


。 应 用 程序 错误 ， 

。 人 为 错误 ， 

。 数据 损坏 修复 。 

软件 工程 师 可 将 对 象 存储 查看 、 存 放 和 获取 API 集成 到 应 用 程序 和 管理 工具 中 ， 以 便 有 效 


地 从 人 为 错误 和 应 用 程序 错误 中 恢复 。 使 用 版 本 控制 ， 管 理 员 可 以 轻松 地 从 删除 、 意 外 修 
改 和 其 他 类 似 情况 中 恢复 ， 而 无 须 使 用 这 些 工具 。 


























2. 检测 
数据 验证 是 决定 是 否 需要 恢复 的 关键 。 当 验证 失败 时 ， 工 程 师 可 以 确定 事故 发 生 的 时 间 范 
围 ， 并 通过 编程 来 恢复 。 


3. 测试 
由 于 对 象 级 别 恢复 是 应 用 程序 的 一 部 分 ， 因 此 标准 集成 测试 应 确保 其 有 效 。 


oo 
的 策略 。 根 据 恢复 服务 等 级 的 目标 、 预 算 和 资源 ， 还 需要 进行 微调 。 但 总 体 而 言 ， 我 们 已 
wa 追踪 和 持续 测试 结合 在 
了 一 起 。 























7.6 小结 


本 章 详细 探讨 了 可 能 导致 需要 进行 数据 恢复 的 潜在 风险 ， 这 样 的 风险 很 多 且 不 可 预测 。 重 
要 的 一 点 是 我 们 无 法 为 所 有 事情 做 计划 ， 因 而 需要 制定 全 面 的 策略 ， 以 确保 可 以 应 对 可 能 
发 生 的 任何 事情 。 其 中 一 些 工作 包括 与 软件 工程 师 合 作 ， 将 恢复 流程 融入 应 用 程序 。 有 些 
情况 下 ， 需 要 自己 构建 一 些 可 靠 的 恢复 软件 。 而 且 ， 在 所 有 情况 下 ， 都 必须 在 前 儿童 内 容 
(有 关 服 务 等 级 管理 、 风 险 管理 、 基 础 设施 管理 和 基础 设施 工程 ) 的 基础 上 进行 规划 。 


第 8 章 将 讨论 发 布 管理 。 在 阅读 本 书 其 余部 分 时 ， 请 始终 将 数据 恢复 牢记 于 心 。 应 用 程序 
和 基础 设施 每 前 进一步 ， 都 会 给 数据 和 有 状态 的 服务 带 来 风险 。 数 据 库 可 靠 性 工程 师 的 首 
要 职责 是 确保 数据 可 恢复 。 
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随 着 推行 自动 化 ， 管 理 基础 设施 的 负担 减 经 了 ,数据库 可 靠 性 工程 师 能 够 专注 于 更 有 价值 
的 工作 ， 包 括 与 软件 工程 师 合作 ， 一 起 构建 、 测 试 和 部 署 应 用 程序 功能 。 传 统 上 ， 数 据 库 
管理 员 是 生产 环境 的 “守卫 "。 他 们 和 希望 了 解数 据 库 迁 移 、 数 据 库 对 象 定义 以 及 访问 数据 
库 的 代码 ， 以 确保 相关 操作 能 正确 执行 。 当 满足 要 求 时 ， 数 据 库 管理 员 会 进行 适当 的 手动 
变更 并 将 其 投入 生产 。 


你 可 能 会 想 ， 对 于 数据 库 结构 经 历 大量 部 署 和 变更 的 环境 来 说 ， 该 过 程 不 一 定 是 可 持续 
的 。 实 际 上 ， 如 果 你 亲自 参与 部 分 流程 ， 就 会 清楚 地 感受 到 数据 库 管 理 员 从 “守卫 ” 变 成 
“ 瓶 须 ”的 速度 有 多 快 ， 这 会 导致 数据 库 管理 员 心 生 倦 全 和 软件 工程 遭遇 挫败 。 


本 章 主要 探讨 数据 库 可 靠 性 工程 师 如 何 有 效 地 利用 时 间 、 技 能 和 经 验 来 支持 软件 工程 ( 采 
用 持续 集成 甚至 持续 部 署 ) ， 避 免 成 为 软件 工程 的 瓶颈 。 


8.1 培训 与 合作 
数据 库 可 靠 性 工程 师 必 须 首先 对 开发 人 员 进 行 培 训 ， 让 他 们 了 人 解 正在 使 用 的 数据 存储 。 如 
果 软 件 工程 师 能 够 对 数据 结构 、SQL 和 整体 交互 策略 做 出 更 好 的 选择 ， 那 么 需要 数据 库 可 
靠 性 工程 师 直 接 干 预 的 情况 将 减少 。 通 过 向 软件 工程 师 团 队 传授 数据 库 知 识 ， 数 据 库 可 靠 
性 工程 师 会 对 同事 的 持续 学 习 过 程 产生 重大 影响 。 这 也 会 增进 彼此 的 关系 、 信 任 和 沟通 ， 
对 于 技术 组 织 的 成 功 至 关 重 要 。 


需要 明确 的 是 ， 数 据 库 可 靠 性 工程 师 不 应 对 软件 工程 团队 不 闻 不 同 ， 双 方 应 增强 互动 。 数 
据 库 可 靠 性 工程 师 通过 常规 的 互动 方式 和 战略 性 努力 来 创建 一 个 专业 的 团队 : 可 以 轻松 获 
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取 相 关 资 源 ， 并 在 数据 库 相 关 的 日 常 工作 中 自主 决策 。 


切记 ， 所 做 的 一 切 要 具体 化 、 可 测量 且 可 操作 。 为 团队 的 成 功 定义 关键 指标 ， 并 在 实施 策 
略 和 变更 时 观察 它们 如 何 为 团队 提供 帮助 。 在 此 过 程 中 要 考虑 如 下 关键 指标 。 


。 需要 数据 库 可 靠 性 工程 师 介入 的 数据 库 相 关 任 务 的 数量 。 

。 成 功 / 失 败 的 数据 库 部 署 。 

。 新 功能 上 线 的 速度 。 软 件 工程 师 能 以 多 快 的 速度 将 新 功能 上 线 ? 
由 数据 库 变 更 导致 的 宕 机 时 间 。 


























敏捷 方法 论 和 DevOps 文化 ， 需 要 具有 不 同 背 景 、 技 能 水 平和 专业 知识 的 人 跨 职 能 互动 ， 
以 便 紧密 协作 。 培 训 和 协作 是 该 过 程 的 重要 组 成 部 分 ， 也 是 数据 库 可 靠 性 工程 师 从 传统 的 
“数据 库 管 理 员 ”模式 转变 成 技术 团队 重要 组 成 部 分 的 绝 佳 机 会 。 


8.1.1 收集 并 分 享 相关 资讯 

毫 无 疑问 ， 应 该 关注 数据 和 数据 库 领域 内 技术 专家 或 优秀 组 织 的 博客 、Twitter 话题 以 及 社 
交 账号 。 在 此 过 程 中 ， 你 会 发 现 与 你 和 团队 正在 做 的 事情 相关 且 有 价值 的 文章 、 问 答 、 播 
客 和 项 目 ， 可 供 研究 和 分 享 。 创 建 简讯 、 论 坛 甚至 聊天 频道 ， 在 其 中 定期 发 布 相关 信息 并 
进行 讨论 。 向 工程 团队 展示 数据 库 可 靠 性 工程 师 在 帮助 他 们 取得 成 功 和 持续 开发 方面 所 付 
出 的 努力 。 















































8.1.2 ”促进 对 话 

下 一 步 是 与 软件 工程 师 积极 地 沟通 和 互动 。 此 时 ， 你 和 团队 将 次 控 分 享 过 的 相关 内 容 以 激 
发 灵感 ， 学 习 利用 这 些 信 息 ， 甚 至 找 出 团队 之 间 在 理解 上 的 偏差 ， 并 一 起 研究 和 实验 以 便 
改进 系统 。 实 现 这 一 点 有 多 种 方式 ， 有 具体 主要 取决 于 所 在 环境 的 学 习 和 协作 文化 。 以 下 是 
几 种 方式 : 


。 每 周 技术 讲座 ， 
。 午餐 期 间 的 简短 交流 ， 

在 线 问答 

。 专注 于 知识 分 享 的 聊天 频道 。 








此 外 ， 可 以 设置 开放 交流 时 间 ， 鼓 励 大 家 提问 ， 就 特定 话题 进行 交流 和 探讨 。 


8.1.3 特定 领域 知识 
前 面 介 绍 了 与 数据 存储 和 架构 相关 的 基础 知识 ， 下 面 介 绍 特定 领域 的 相关 知识 。 
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1. 架构 
我 们 不 推崇 静态 文档 ， 因 为 不 能 与 实际 构建 和 部 署 架构 的 流程 相 结合 。 通 过 配置 管理 和 编 
排 系 统 ， 可 以 获得 大 量 最 新 文档 。 基 于 此 构建 工具 ， 以 方便 查找 、 借 阅 和 评注 文档 ， 可 以 
为 团队 创建 实用 的 文档 。 






























































更 重要 的 是 要 理解 上 下 文 和 历史 背景 。 使 用 特定 的 数据 存储 、 配 置 和 拓扑 结构 是 有 原因 
的 。 帮 助 工 程 师 搞 清楚 一 些 问 题 ， 包 括 : 正在 使 用 的 架构 是 什么 ”为 什么 要 使 用 这 些 架 
构 ? 如 何 获得 与 架构 的 使 用 相关 的 文档 ? 做 出 了 哪些 权衡 和 折 中 才 达 到 了 现在 的 状态 ? 


数据 库 可 靠 性 工程 师 需要 向 工程 师 提 供 这 些 知识 、 上 下 文 和 历史 背景 。 这 样 一 来 ， 无 须 指 
导 ， 工 程 师 也 能 在 日 常 开发 中 独立 决策 。 建 立 设计 文档 的 知识 库 ， 是 构建 架构 上 下 文 和 历 
史 背 景 的 前 提 。 这 些 文档 可 以 用 于 需要 新 架构 组 件 的 整个 项 目 、 增 量变 更 或 子 项 目 。 例 
如 ， 你 肯定 需要 一 个 设计 文档 来 记录 从 基于 语句 的 复制 到 基于 行 复制 的 演变 过 程 ， 但 它 的 
要 求 不 一 定 与 首次 安装 Kafka (以 便 为 事件 驱动 的 架构 创建 分 布 式 日 志 系 统 ) 时 相同 。 


创建 和 分 享 文档 模板 是 一 项 团队 活动 ， 重 要 的 是 要 包括 如 下 信息 。 






































口 执行 摘要 
给 那些 查找 基础 知识 的 人 。 


口 目标 和 非 目 标 
这 个 项 目的 预期 结果 是 什么 ? 什么 超出 了 范围 ? 

















AE 
口 背景 


将 来 的 读者 可 能 需要 的 上 下 文 。 





D 设计 
从 上 层 到 具体 细节 ， 应 该 包含 图 表 、 样 本 配置 或 算法 。 
口 约束 


需要 牢记 要 解决 什么 问题 。 例 如 对 PCI 的 合 规 性 、IaaS (Internet as a service， 网 络 即 服 
务 ) 的 特定 需求 或 人 员 配 备 。 


口 备 选 方案 
是 否 评估 了 其 他 选择 ? 基于 什么 方法 论 ? 为 什么 不 选择 它们 ? 
口 启动 详情 





如 何 局 动 ? 出 现 了 什么 问题 以 及 是 如 何 解决 的 ? 应 该 包含 脚本 、 流 程 和 注释 。 
显而易见 ， 这 些 文档 可 能 会 变 得 很 大 ， 对 于 某 些 项 目 来 说 这 没有 问题 。 分 布 式 系统 和 具有 
多 层 的 服务 很 复杂 ， 包 含 很 多 信息 和 上 下 文 。 请 记 住 ， 这 里 的 重点 是 让 工程 师 了 解 上 下 
文 ， 市 省 数据 库 可 靠 性 工程 师 的 时 间 。 
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2. 数据 模型 

数据 流 和 物理 通道 (physical pipeline) 是 与 所 存储 的 数据 种 类 有 关 的 信息 ， 它 和 架构 同样 
重要 。 让 软件 工程 师 知 道 已 存储 数据 的 种 类 和 位 置 ， 就 能 消除 开发 过 程 中 不 必要 的 调研 。 
此 外 ， 数 据 库 可 靠 性 工程 师 可 以 分 享 在 不 同 数据 库 (关系 型 、 键 值 型 或 文档 型 ) 中 表示 相 
同 数据 的 方式 ， 也 可 以 借 机 宣传 最 佳 实践 〈 哪 些 数据 库 不 适合 存储 哪些 类 型 的 数据 ) 。 


3. 最 佳 实 践 和 标准 
为 工程 师 定 期 进行 的 活动 制定 标准 ， 是 提升 数据 库 可 靠 性 工程 师 价 值 的 另 一 种 有 效 方式 。 
数据 库 可 靠 性 工程 师 可 以 在 帮助 工程 师 制定 决策 时 逐步 给 出 这 些 标准 ， 例 如 : 


。 数据 类 型 标准 ， 

。 索引 

。 元 数据 属性 ， 

。 数据 存储 选 型 ， 

。 提供 的 度量 值 ; 

。 设计 模式 ， 

。 迁移 和 数据 库 变 更 模式 。 

在 与 工程 师 一 起 工作 时 发 布 这 些 信息 ， 形 成 可 以 随时 访问 的 自助 服务 知识 库 ,以 避免 自己 
成 为 团队 的 瓶颈 。 




















4. 工具 

为 软件 工程 师 提供 高 效 的 开发 工具 是 终极 赋 能 方式 ， 例 如 使 用 基准 测试 工具 和 脚本 、 一 致 
性 验证 程序 、 模 板 其 至 新 数据 存储 的 配置 程序 来 提供 帮助 。 从 根本 上 来 说 ， 这 些 措施 旨 在 
加 快 开发 速度 ， 同 时 腾 出 时 间 来 做 更 有 价值 的 工作 。 


优秀 的 工具 有 : 


。 Etsy 开发 的 Schemanator 工具 ; 
。 Percona 工具 包 ， 尤 其 是 在 线 schema 变更 ， 
。 SQL 调整 和 优化 套件 ， 
。 SeveralNines 的 Cluster Configurator 工具 ， 

签 入 变更 计划 模板 和 示例 ， 
。 签 入 迁移 脚本 和 模式 示例 ， 
。 基准 测试 套件 ， 以 方便 测试 、 可 视 化 和 分 析 。 
把 软件 工程 团队 视 为 客户 ， 并 实施 精益 产品 开发 策略 。 为 他 们 提供 一 个 可 行 的 最 小 工具 
集 ， 并 持续 地 关注 、 追 踪 并 评估 他 们 的 成 功 、 失 败 、 痛 点 和 需求 ， 以 了 解 哪些 工具 会 为 他 
们 带 来 最 大 收益 。 




















注 1: Martin Fowler. Evolutionary Database Design. 
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8.1.4 协作 

如 果 定 期 组 织 培 训 、 创 建 工具 并 赋予 工程 师 权 力 ， 自 然 会 建立 良好 的 关系 。 这 很 关键 ， 因 
为 良好 的 关系 会 促进 持续 协作 。 任 何 软件 工程 师 都 应 有 权 和 数据 库 可 靠 性 工程 师 团 队 联 
系 ， 以 查询 信息 或 在 工作 期 间 寻 求 合 作 。 当 软件 工程 师 了 解数 据 库 可 靠 性 工程 师 团 队 的 工 
作 方 式 和 目标 ， 数 据 库 可 靠 性 工程 师 团 队 也 了 解 软件 开发 的 更 多 信息 时 ， 双 方 都 会 获 益 。 


更 进一步 ， 数 据 库 可 靠 性 工程 师 可 以 主动 联系 软件 工程 师 。 有 些 场景 对 数据 库 开 发 和 重 构 
有 很 强 的 依赖 ， 数 据 库 可 靠 性 工程 师 应 当 集中 精力 确保 团队 的 效率 并 取得 成 功 。 在 这 些 场 
景 中 ， 需 要 结对 工作 或 成 为 团队 的 一 部 分 。 同 样 ， 密 切 关 注 即 将 签 入 代码 主干 的 迁移 ， 有 
助 于 数据 库 可 靠 性 工程 师 团队 轻松 找到 需要 审查 之 处 。 


毫 无 疑问 ， 确 保 数据 库 可 靠 性 工程 师 不 单打 独 斗 或 远离 代码 构建 ， 将 有 助 于 确保 这 种 协作 
顺利 开展 。 将 数据 库 可 靠 性 工程 师 和 软件 工程 师 的 项 目 和 工作 互 换 ， 也 可 以 实现 这 一 点 。 





























前 面 一 直 在 讨论 ， 如 何 帮助 软件 工程 师 在 开发 过 程 中 尽 可 能 实现 自给 自足 。 随 着 开发 团队 
的 成 长 ， 需 要 利用 有 效 的 培训 、 标 准 和 工具 来 确保 团队 可 以 正确 决策 ， 而 无 须 数据 库 可 靠 
性 工程 师 直 接 干预 。 此 外 ， 在 培训 中 告诉 软件 工程 师 ， 何 时 需要 数据 库 可 靠 性 工程 师 审查 
待定 的 变更 和 解决 方案 ， 以 便 在 必要 时 提供 帮助 。 


接 下 来 讨论 数据 库 可 靠 性 工程 师 如 何 有 效 地 支持 交付 流水 线 的 各 个 组 件 。CD (continuous 
delivery， 持 续 交 付 ) 并 非 新 概念 ， 但 是 各 组 织 一 直 在 努力 将 数据 库 纳 入 流程 。 下 面 讨 论 如 
何 有 效 地 将 数据 库 层 引 入 整个 交付 周期 。 


8.2 集成 


频繁 地 集成 数据 库 变 更 ， 会 使 得 变更 集 更 小 、 更 易于 管理 ， 而 且 能 通过 快速 速 识别 重大 变 
更 来 对 变更 的 影响 迅速 做 出 反馈 。 许 多 组 织 努 力 实现 CI (continuous integration， 持 续集 
成 )， 以 便 自 动 集成 提交 的 所 有 变更 。CI 的 很 大 一 部 分 价值 是 自动 化 测试 ， 用 于 检验 数据 
库 是 否 满足 应 用 程序 的 需求 。 只 要 提交 代码 ， 就 会 触发 这 些 自 动 化 测试 。 


在 整个 软件 开发 生命 周期 中 ， 对 数据 库 代 码 或 组 件 的 任何 变更 都 应 触发 全 新 的 构建 ， 然 后 
进行 集成 和 测试 。 数 据 库 可 靠 性 工程 师 和 软件 工程 团队 负责 确定 数据 库 正常 运行 的 标准 。 
在 软件 工程 师 重 构 数 据 模型 、 引 入 新 数据 集 和 使 用 新 方式 查询 数据 库 时 ， 集 成 测试 能 够 再 
次 验证 数据 库 ， 以 确保 其 工作 状态 是 正常 的 。 


事实 证 明 ， 对 数据 库 层 进行 CI 颇具 挑战 。 除 了 应 用 程序 使 用 数据 库 对 象 的 功能 方面 ， 在 
可 用 性 、 一 致 性 、 延 时 和 安全 性 方面 还 有 运 维 操作 的 要 求 。 变 更 对 象 会 影响 已 存储 的 代码 
(功能 、 触 发 器 或 视图 等 )， 甚 至 会 影响 应 用 程序 其 他 部 分 的 查询 。 此 外 ， 数 据 库 中 的 高 级 
功能 (例如 事件 ) 会 导致 脆弱 性 加 重 。 除 了 功能 测试 ， 还 有 许多 潜在 的 涉及 数据 完整 性 的 
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极端 情况 。 即 使 有 时 数据 库 约 束 可 以 强制 保证 完整 性 ， 也 必须 测试 这 些 规则 。 更 令 人 担忧 
的 是 ， 有 的 环境 没有 采用 数据 库 级 别 约束 。 


先决 条 件 


要 在 数据 库 级 别 建立 CI， 必 须 满足 以 下 5 个 要 求 。 


1. VCS 
与 基础 设施 的 代码 和 配置 一 样 ， 所 有 数据 库 迁 移 都 必须 和 应 用 程序 的 其 余部 分 一 起 提交 到 
同一 个 VCS 中 。 至 关 重 要 的 是 能 够 根据 最 新 配置 进行 构建 ， 以 了 解 最 近 的 数据 库 配置 变 
更 如 何以 新 的 方式 破坏 应 用 程序 构建 。 











为 了 防止 出 现 不 一 致 的 情况 ， 所 有 内 容 需 要 提交 到 代码 库 中 ， 包 括 : 


。 数据 库 对 象 迁移 ， 

。 触发 器 ， 

。 存储 过 程 和 国 数 ; 

。 视图 ; 

。 配置 ， 

。 功能 采样 数据 集 ; 

。 数据 清理 脚本 。 

这 在 CI 之 外 还 带 来 了 其 他 好 处 。 

。 在 一 处 就 能 轻松 找到 所 有 相关 项 。 

。 支持 自动 化 部 署 需要 的 一 切 组 件 (参见 第 6 章 )。 


。 可 以 找到 数据 库 的 所 有 历史 记录 和 版 本 ， 这 有 助 于 恢复 、 取 证 和 故障 排除 。 
。 应 用 程序 和 数据 库 版 本 将 是 同步 的 ， 至 少 在 理想 情况 下 如 此 。 











当 数据 库 可 靠 性 工程 师 根据 已 知 的 工作 状态 ， 持 续 进 行 集成 、 验 证 签 入 的 代码 和 基础 设施 
更 改 时 ， 软 件 工程 师 可 以 将 最 新 的 数据 库 版 本 应 用 于 开发 环境 。 


2. 数据 库 构 建 自动 化 

假设 你 正在 使 用 第 6 章 所 讲 的 配置 管理 和 自动 化 技术 ， 那 么 在 集成 时 应 该 能 够 自动 构建 数 
据 库 。 这 包括 应 用 最 新 的 DDL (data definition language， 数 据 定义 语言 ) 和 脚本 ， 以 及 加 
载 用 于 测试 的 代表 性 数据 集 。 这 可 能 比 预期 的 更 具 挑 战 性 ， 因 为 必须 经 常 清理 生产 数据 或 
对 其 脱 敏 ， 以 避免 在 暴露 用 户 数据 时 出 现 合 规 性 问题 。 






























































3. 测试 数据 
空 数 据 库 几 乎 总 是 表现 得 非常 好 ， 小 数据 集 通 常 也 是 如 此 。 这 里 需要 3 组 数据 。 首 先是 查 
找 表 需要 的 所 有 元 数据 ， 其 中 包含 用 户 类 型 、 位 置 DD、 工 作 流 和 内 部 表 的 ID。 这 类 数据 





集 通常 很 小 ， 但 对 于 应 用 程序 的 正常 工作 而 言 至 关 重 要 。 


其 次 需要 功能 数据 ， 例 如 用 户 或 订单 。 在 投入 更 多 时 间 进 行 密集 测试 之 前 ， 功 能 数据 通常 
足以 支持 早期 的 快速 测试 。 


最 后 需要 大 型 数据 集 ， 以 帮助 理解 生产 负载 下 的 情况 。 这 通常 需要 从 生产 数据 集 构 建 ， 并 
探 除 敏感 信息 ， 以 避免 意外 暴露 用 户 数据 ， 或 不 小 心 向 数 千 名 用 户 发 送 电子 邮件 ， 或 者 引 
发 其 他 用 户 问题 和 法 律 问题 。 


元 数据 和 调试 数据 集 应 该 答 人 ， 作 为 构建 的 一 部 分 进行 版 本 控制 。 较 大 的 数据 集 通常 来 自 
生产 环境 ， 应 该 对 恢复 和 清理 数据 所 需 的 脚本 进行 版 本 控制 和 签 入 ， 以 确保 应 用 程序 和 持 
久 层 之 间 同 步 。 


4. 数据 库 变更 和 打包 

一 切 都 是 以 把 实施 数据 库 变更 视 为 迁移 ( 增 量 代码 变更 ) 为 前 提 的 。 每 一 组 变更 ， 例 如 
alter 表 、 添 加 元 数据 或 新 列 族 ， 都 将 签 入 并 获得 一 个 序列 号 。 因 为 所 有 变更 都 是 按 顺 序 实 
施 的 ， 所 以 任何 时 候 都 有 一 个 与 最 近 的 变更 对 应 的 版 本 。 


传统 上 ， 数 据 库 管 理 员 要 么 从 开发 人 员 那 里 获得 变更 列表 ， 要 么 在 开发 和 生产 之 间 生 成 
schema diff， 以 获得 为 了 发 布 应 用 必要 变更 所 需 的 信息 。 这 样 做 的 好 处 是 ， 数 据 库 专家 可 
以 谨慎 地 管理 那些 影响 可 能 很 大 的 变更 。 在 复杂 的 迁移 期 间 ， 这 样 做 可 以 将 六 在 的 宕 机 时 
间 及 其 影响 最 小 化 。 




























































































然而 ， 这 种 传统 方法 的 缺点 是 ， 很 难看 出 哪些 数据 库 更 改 对 应 哪些 功能 。 如 果 必 须 回 滚 
某 些 内 容 ， 那 么 识别 与 特定 功能 相关 的 数据 库 增 量变 更 会 很 有 挑 成 性 。 类 似 地 ， 如 有 果 数 
据 库 变更 失败 ， 所 有 等 待 这 些 变更 的 功能 都 将 被 延迟 ， 从 而 影响 相应 功能 部 署 到 生产 环 
境 的 时 间 。 


采用 增 量 方式 可 以 实现 敏捷 方法 所 能 实现 的 一 切 : 快速 投入 市 场 、 较 小 的 增 量 式 变更 、 清 
晰 的 可 见 性 ， 以 及 快速 的 反馈 循环 。 但 这 意味 着 软件 工程 师 必 须 了 解 如 何 安 全 地 进行 数 
据 库 schema 变更 ， 以 及 何 时 应 该 向 数据 库 可 靠 性 工程 师 团队 求助 。 此 外 ， 还 可 能 存在 
schema 变更 发 生 冲 突 的 风险 。 如 果 两 名 软件 工程 师 正在 修改 相同 的 对 象 ， 将 导致 重复 进行 
此 类 变更 。 如 果 该 数据 库 对 象 中 有 大 量 数据 ，schema 变更 的 用 时 将 大 增 。 在 这 种 情况 下 ， 
必须 权衡 利 浆 ， 软 件 工程 师 必 须 意 识 到 相互 冲突 的 可 能 。 

5. CI 服务 器 和 测试 框架 

假设 你 的 软件 集成 已 经 运用 了 上 述 知 识 。 一 个 好 的 CI 系统 将 提供 集成 所 需 的 所 有 功能 ， 
而 测试 框架 将 提供 系统 级 测试 和 代码 组 件 测 试 。 
































在 系统 级 别 ， 可 以 使 用 Pester (Windows) 或 Robot (Linux) 之 类 的 框架 。 也 可 以 使 用 
Jepsen， 该 分 布 式 系统 测试 框架 专门 用 于 验证 分 布 式 存 储 中 数据 的 一 致 性 和 安全 性 。 
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有 了 这 些 先 决 条 件 ， 就 可 以 开始 使 用 公司 的 CI 平台 进行 数据 库 schema 变更 了 。 顾 名 思 
义 ，CI 意味 着 只 要 签 入 数据库 变更 ， 就 会 自动 进行 集成 测试 。 为 了 实现 这 一 目标 ， 并 让 工 
程 团队 确信 这 些 变更 不 会 对 应 用 程序 的 预期 功能 和 服务 等 级 产生 不 利 影响 ， 测试 就 成 了 关 
键 工 具 。 





8.3 测试 

所 有 工程 师 都 向 VCS 签 入 数据 库 变 更 。CI 服务 器 能 够 自动 触发 数据 库 构 建 ， 并 且 构 建 的 
版 本 与 应 用 程序 版 本 一 致 ， 而 且 有 一 个 测试 框架 。 接 下 来 做 什么 ?需要 验证 集成 是 否 有 
效 ， 以 及 在 下 一 个 阶段 (部署) 中 会 产生 什么 影响 。 

















坦白 说 ， 这 很 困难 。 数 据 库 变 更 因 会 影响 大 量 代码 和 功能 而 “ 身 名 昭著 ”"。 话 虽 如 此 ， 有 
一 些 方法 可 以 简化 应 用 程序 构建 。 


8.3.1 测试 友好 的 开发 实践 


在 设计 开发 流程 时 ， 可 以 通过 多 种 方式 来 简化 测试 ， 下 面 介 绍 两 个 例子 。 


1. 抽象 和 封装 
有 许多 方法 可 以 帮助 软件 工程 师 抽象 数据 库 访问 。 为 什么 要 这 么 做 ?把 数据 库 访问 代码 集 
中 在 一 起 ,创建 了 一 种 标准 的 、 易 于 理解 的 方式 来 实现 新 对 象 或 者 访问 已 有 对 象 。 这 也 意 
味 着 在 变更 数据 库 时 ， 无 须 搜 索 整 个 代码 库 。 这 极 大 地 简化 了 测试 和 集成 。 实 现 这 种 抽象 
的 方式 包括 : 






































。 DAO (data access object， 数 据 访问 对 象 ); 

。 API 或 Web 服务 ， 

。 存储 过 程 ， 

。 专门 的 框架 。 

有 了 这 些 ， 集 成 就 可 以 首先 集中 测试 访问 和 更 新 数据 的 代码 ， 检 查 变 更 是 否 影响 了 功能 。 
与 任何 测试 一 样 ， 首 先 需要 测试 影响 大 、 执 行 快 的 用 例 ， 而 数据 访问 代码 的 集中 有 利于 实 


现 这 一 点 。 





2. 追求 高 效 

工程 师 常 用 “select *” 获 取 所 处 理 对 象 的 一 整 行 。 这 样 做 是 为 了 “ 防 患 于 未 然 "， 或 者 确 
保 在 任何 需要 相关 数据 的 地 方 都 能 使 用 数据 。 也 许 他 们 想 确 定 ， 如 果 在 对 象 中 添加 一 个 属 
性 ， 就 会 自动 获取 它 。 这 种 行为 很 危险 并 且 是 一 种 浪费 ， 还 会 在 变更 期 间 将 应 用 程序 置 于 
仿 境 。“select *” 将 获取 所 有 列 ， 但 如 果 代 码 没 有 做 相应 处 理 ， 程 序 就 可 能 崩溃 。 获 取 的 
所 有 数据 必须 通过 网 络 传输 ， 如 果 获 取 多 行 ， 就 需要 更 多 带宽 ， 可 能 导致 TCP 拥塞 。 有 选 
择 性 地 获取 相应 的 列 格外 重要 。 可 以 适时 修改 访问 对 象 的 代码 ， 并 为 此 做 好 准备 。 
































8.3.2 ”变更 签 入 后 的 测试 

代码 签 入 后 的 测试 旨 在 验证 变更 是 否 成 功 ， 以 及 应 用 程序 是 否 工作 正常 。 此 外 ， 可 以 在 这 
个 层面 进行 针对 安全 性 和 合 规 性 的 影响 分 析 和 基于 规则 的 验证 。 签 入 代码 之 后 ， 构 建 服务 
器 应 该 立即 构建 一 个 用 于 集成 的 数据 存储 ， 然 后 实施 变更 并 开展 一 系列 测试 。 这 些 测试 的 
运行 速度 很 快 ， 可 以 将 结果 迅速 反馈 给 工程 师 。 这 意味 着 利用 签 入 的 最 小 数据 集 快 速 构建 
数据 库 ， 该 数据 集 包含 所 有 必要 的 元 数据 、 用 户 账户 数据 和 测试 数据 ， 这 些 测试 数据 是 验 
证 所 有 DAO 功能 是 否 正 常 所 必需 的 。 这 样 工程 师 就 可 以 快速 验证 变更 是 否 破坏 了 构建 。 














在 组 织 的 早期 ， 可 能 这 些 工作 大 部 分 是 手动 完成 的 。 当 开始 应 用 规则 时 ， 可 以 利用 工具 和 
自动 化 使 这 些 过 程 更 快 、 更 可 靠 。 


1. 构建 前 
在 实施 变更 前 ， 可 以 针对 已 确立 的 影响 分 析 和 合 规 性 规则 进行 以 下 验证 。 


。 验证 SQL 语句 是 否 正确 。 

。 验证 可 能 受 变 更 影响 的 行 数 。 

。 验证 为 新 列 创建 的 索引 。 

。 验证 表 中 有 数据 的 新 列 不 采用 默认 值 。 
。 验证 对 保存 的 代码 和 引用 约束 的 影响 。 
。 报告 正在 更 新 的 敏感 数据 库 对 象 和 属性 。 
当 违 反 合 规 性 时 进行 报告 。 

2. 构建 
运行 构建 时 将 再 次 验证 SQL 语句 。 在 这 种 情况 下 ， 是 基于 变更 的 实际 应 用 ， 而 不 是 基于 规 
则 的 分 析 。 


3. 构建 后 
对 构建 实施 变更 之 后 ， 可 以 运行 功能 测试 套件 。 还 可 以 创建 报告 ， 以 分 析 变 更 产生 的 影响 
以 及 任何 违规 行为 。 


8.3.3 ”完整 的 数据 集 测试 
应 用 程序 在 完整 的 生产 数据 集 上 运行 后 ， 服 务 可 能 无 法 达到 预期 的 服务 等 级 ， 这 意味 着 测 
试 套件 应 该 在 适当 的 负载 下 在 生产 数据 集 上 运行 。 这 需要 更 多 准备 工作 和 资源 ， 因 此 可 以 


将 这 类 测试 套件 从 标准 的 签 入 集成 测试 中 剥离 出 来 ， 异 步 地 调度 。 根 据 集成 和 代码 签 入 的 
频率 ， 每 周 甚至 每 天 执行 此 类 测试 可 能 更 有 意义 。 


这 种 覆盖 面 广 的 测试 所 采取 的 步 又 各 不 相同 ， 但 通常 遵循 如 下 方式 : 
。 创建 数据 存储 和 应 用 程序 实例 ， 
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。 部 署 代码 ， 

。 恢复 完整 的 数据 集 ; 

。 将 数据 匿名 化 ，; 

。 关联 度量 集合 

。 实施 数据 存储 的 变更 ， 

。 启动 功能 ， 快 速 测 试 ， 

。 执行 负载 测试 ， 提 高 并 发 性 ， 
3 销毁 实例 ; 

。 测试 后 分 析 。 


在 这 些 测试 中 ， 需 要 注意 以 下 儿 点 。 


。 与 之 前 在 较 小 数据 集 上 运行 相 比 ， 延 迟 发 生 的 变化 。 

。 数据 库 查 询 优化 器 中 访问 路 径 的 改变 ， 可 能 影响 延迟 或 资源 利用 率 。 
。 数据 库 度量 值 ， 表 明 凌 在 的 性 能 或 功能 影响 ( 锁 、 错 误 、 资 源 等 待 )。 
。 与 之 前 相 比 ， 资 源 利用 率 的 变化 。 


可 以 将 一 些 分 析 自 动 化 ， 例 如 将 查询 注册 到 一 个 集中 的 数据 存储 中 ， 并 比较 历史 变更 。 有 
些 度量 分 析 需 要 运 维 人 员 进行 有 效 的 评审 ， 以 确定 变更 可 否 通过 。 


如 果 发 现任 何 危 险 信 号 (自动 化 的 或 非 自动 化 的 )， 数 据 库 可 靠 性 工程 师 能 够 快速 回顾 自 
上 次 测试 运行 以 来 实施 了 哪些 变更 ， 以 缩小 分 析 范 围 。 虽 然 不 能 立即 确定 危险 是 由 哪个 变 
更 导致 的 ， 但 有 助 于 更 快速 地 做 出 判断 。 

除了 分 析 应 用 程序 的 响应 速度 ， 还 必须 定期 对 快速 演变 的 数据 存储 执行 其 他 测试 。 这 些 测 
试 确保 了 数据 库 虽 然 不 断 变 化 ， 但 在 整个 生态 系统 中 一 直 表 现 良 好 。 这 些 测试 指 下 游 测 试 
和 操作 测试 。 









































8.3.4 下 游 测试 

下 游 测试 用 于 确保 数据 存储 的 任何 数据 流水 线 和 数据 使 用 者 不 会 受到 实施 数据 库 schema 
变更 的 不 利 影响 。 与 完整 的 数据 集 测 斌 一样， 下 游 测试 最 好 在 签 入 过 程 中 异步 完成 。 下 游 
测试 的 例子 有 : 


。 验证 由 数据 库 中 的 数据 所 触发 的 事件 工作 流 ， 
。 验证 提取 、 转 换 ， 以 及 把 数据 加 载 到 用 于 分 析 的 数据 存储 中 的 过 程 ; 
。 验证 直接 与 数据 库 交 互 的 批 处 理 和 调度 作业 ， 

验证 作业 时 间 有 无 显著 增加 ， 时 间 的 增加 可 能 影响 交付 时 间或 下 游 流 程 。 


与 全 量 数据 集 测 试 类 似 ， 这 些 测试 通常 覆盖 很 多 用 例 ， 并 且 需 要 使 用 更 大 的 数据 集 。 通 过 
异步 而 有 规律 地 运行 这 些 测试 ， 更 容易 识别 影响 了 已 在 测试 中 标记 的 下 游 流 程 的 六 在 变 



































更 。 如 果 测 试 失 败 ， 可 以 停止 上 线 ， 如 果 违 反 了 规则 ， 可 以 自动 创建 工 单 。 


8.3.5 ”操作 测试 
随 着 数据 集 的 增加 和 schema 的 演变 ， 操 作 流程 可 能 会 运行 更 长 时 间 ， 并 且 可 能 会 发 生 故 
障 。 这 些 操作 流程 测试 包括 以 下 内 容 : 


。 备份 和 恢复 流程 ， 
。 故障 转移 和 集群 操作 ， 
。 基础 设施 配置 和 编排 
。 安全 测试 ， 
。 容量 测试 。 














这 些 测试 应 该 定期 从 生产 数据 集 执行 自动 构建 ， 并 在 运行 测试 之 前 应 用 所 有 挂 起 和 签 入 的 
变更 。 失 败 的 测试 可 以 告知 构建 服务 器 ， 在 把 变更 部 署 到 生产 环境 之 前 ， 必 须 评 估 问 题 并 
予以 解决 。 虽 然 数 据 库 变更 很 少 影响 这 些 流程 ， 但 在 服务 等 级 上 的 影响 可 能 很 严重 ， 因 此 
需要 高 度 关注 。 














通过 结合 持续 、 轻 量 级 的 构建 和 测试 ， 以 及 策略 性 地 进行 更 多 测试 ， 可 靠 性 工程 师 、 软 件 
工程 师 、 运 维 人 员 和 项 目 管理 方面 将 更 有 把 握 ， 即 数据 库 变更 可 以 部 署 到 生产 中 ， 而 无 须 
数据 库 可 靠 性 工程 师 团队 直接 干预 。 


此 类 集成 是 数据 库 可 靠 性 工程 师 通 过 流程 、 知 识 共享 和 自动 化 提供 价值 的 范例 ， 使 得 软件 
工程 师 不 受 数据 库 可 靠 性 工程 师资 源 瓶颈 的 限制 。 下 面 讨论 更 重要 的 问题 一 部署。 认识 
到 数据 库 变更 的 安全 性 是 第 一 步 ， 而 将 这 些 变更 安全 地 部 署 到 生产 环境 中 同样 重要 。 


8.4 部 署 


前 面 讨论 过 数据 库 schema 变更 的 概念 及 其 优 缺 点 。 鉴 于 数据 库 变更 的 重要 性 ， 让 软件 工程 师 


轻松 、 安 全 、 增 量 式 地 在 环境 中 迁移 数据 意义 重大 ， 至 少 要 以 尽 可 能 安全 的 方式 实施 变更 。 
在 理想 的 情况 下 ， 我 们 的 目标 是 让 软件 工程 师 能 够 识别 何 时 需要 数据 库 可 靠 性 工程 师 对 其 
数据 库 变 更 进行 分 析 和 管理 ， 以 便 有 效 地 将 变更 部 团 到 生产 环境 中 。 此 外 ， 我 们 会 为 软件 
工程 师 提 供 工具 ， 让 他 们 能 够 安全 、 稳 妥 地 将 大 多 数 变更 部 署 到 生产 环境 中 。 最 后 ， 我 们 
将 使 软件 工程 师 能 够 随时 将 变更 部 署 到 生产 环境 中 ， 而 不 是 仅 在 维护 期 间 。 下 面 讨论 如 何 
实现 这 一 点 。 


8.4.1 迁移 和 版 本 


如 8.2 市 所 讨论 的 ， 每 个 数据 库 变更 集 都 应 该 有 一 个 数字 版 本 ， 通 常 是 在 实施 变更 集 之 后 ， 
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在 数据 库 中 存储 一 个 递增 的 整数 值 。 通 过 这 种 方式 ， 部 署 系统 可 以 轻松 查看 数据 库 schema 
的 当前 版 本 ， 进 而 简化 实施 变更 。 如 果 部 署 的 代码 对 应 数据 库 版 本 456， 而 当前 的 数据 库 
版 本 是 455， 那 么 部 署 团队 就 知道 ， 在 部 署 代码 之 前 必须 应 用 456 号 变更 集 。 


因此 ， 软 件 工程 师 已 将 456 号 变更 集 签 入 代码 库 ， 并 且 成 功 运行 了 集成 测试 ， 所 有 功能 都 
运行 正常 。 接 下 来 该 做 什么 ? 














8.4.2 ”影响 分 析 
前 面 讨论 了 提交 后 测试 的 影响 分 析 。 存 在 某 些 影响 的 变更 (例如 数据 库 中 存储 的 代码 无 效 
或 违反 安全 控制 ) 是 禁止 发 布 的 。 软 件 工程 师 需要 先 修改 其 变更 ， 直 至 消除 这 类 影响 。 


下 面 介绍 在 生产 系统 上 实施 数据 库 变更 的 影响 。 


1. 锁定 对 象 

许多 变更 会 导致 一 个 表 其 至 一 组 表 不 可 写 、 不 可 读 或 者 不 可 读 写 。 在 这 种 情况 下 ， 需 要 估 
算 对 象 不 可 访问 的 总 时 长 ， 并 判断 是 否 可 接受 。 可 接受 的 锁定 时 长 是 SLO 或 业务 需求 的 一 
部 分 ， 因 此 是 主观 的 。 以 前 对 这 些 对 象 实施 的 变更 ， 可 以 用 实施 变更 所 需 时 间 的 特定 度量 
来 记录 。 这 能 提供 一 些 客观 数据 来 确定 影响 时 间 ， 但 需要 注意 ， 变 更 所 需 时 间 会 因数 据 集 
的 增 大 以 及 操作 的 增多 而 延长 。 


如 有 果 影 响 时 间 不 可 接受 ， 数 据 库 可 靠 性 工程 师 应 该 与 部 署 团队 共 商 计划 ， 将 时 间 缩 减 到 可 
接受 的 范围 ， 或 者 迁 走 线 上 流量 ， 直 到 变更 成 功 为 止 。 


2. 资源 饱和 度 

变更 可 能 会 消耗 大 量 WO， 也 可 能 造成 数据 库 其 他 事务 的 延 时 增加 。 这 会 导致 韦 背 服务 等 级 ， 
并 最 终 导致 进程 积压 ， 应 用 程序 变 得 不 可 用 ， 其 他 资源 达到 饱和 。 这 很 容易 导致 级 联 故障 。 
3. 数据 完整 性 问题 

变更 过 程 中 可 能 会 有 过 渡 期 ， 甚 间 约束 会 放松 或 推迟 。 同 样 ， 锁 定 和 验证 失效 会 导致 数据 
以 意外 方式 保存 。 

4. 复制 停顿 

数据 库 更 改 可 能 导致 资源 消耗 增加 和 复制 滞后 ， 这 可 能 影响 副本 的 有 将 性， 甚至 将 故障 转 
移 置 于 险 境 。 


数据 库 可 靠 性 工程 师 需要 帮助 软件 工程 师 提 前 识别 并 避免 这 些 影响 。 


















































8.4.3 ”变更 模式 
分 析 完 影响 后 ， 软 件 工 程 师 可 以 决定 合适 的 变更 部 署 方式 。 很 多 变更 场景 不 必 进 行 大 量 的 
增 量变 更 和 评审 ， 新 增 对 象 、 插 入 数据 以 及 其 他 类 似 操 作 可 以 轻松 地 发 布 到 生产 环境 中 。 




















然而 ， 在 数据 存 入 系统 后 ， 如 果 更 改 或 删除 这 些 数 据 以 及 更 改 或 删除 包含 数据 的 对 象 ， 这 
类 变更 很 可 能 会 影响 服务 等 级 ， 此 时 软件 工程 师 可 以 向 数据 库 可 靠 性 工程 师 求助 。 数 据 库 
可 靠 性 工程 师 可 以 计划 相对 有 限 的 一 组 变更 。 当 和 软件 工程 师 一 起 计划 并 执行 这 些 变 更 
时 ， 数 据 库 可 靠 性 工程 师 可 以 为 将 要 使 用 的 数据 库 更 改 创建 一 个 模式 库 。 如 有 果 这 些 模式 经 
常 执行 且 对 服务 无 影响 ， 可 以 将 它们 自动 化 。 


例如 ， 可 以 在 集成 和 测试 中 建立 部 署 准 入 规则 ， 利 用 基于 规则 的 分 析 和 测试 结果 来 判断 部 
署 变更 是 否 安全 。 典 型 的 操作 包括 如 下 内 容 。 

















。 更 新 和 删除 不 用 WHERE 从 句 过 渡 行 。 

。 受 影响 的 行 数 大 于 N。 

。 修改 有 一 定数 据 量 的 表 。 

。 对 元 数据 表 进 行 的 更 改 由 于 太 忙 而 无 法 实时 更 改 。 
。 具有 默认 值 的 新 列 。 

。 创建 /更改 语句 涉及 某 些 数据 类 型 ,例如 BLOB (binary large object, 二进制 大 对 象 ) 文件 。 
。 无 索引 的 外 键 。 

。 在 特别 敏感 的 表 上 进行 操作 。 


为 团队 在 生产 环境 准备 的 标记 和 防护 措施 越 多 ， 就 越 能 增强 团队 的 信心 ， 从 而 加 快 开发 速 
度 。 假 设 软件 工程 师 签 入 了 456 号 变更 ， 该 变更 被 视 为 具有 重大 影响 而 被 标记 。 如 果 之 前 
实施 过 此 类 变更 并 记录 了 相关 文档 ， 就 可 以 对 该 操作 应 用 这 种 变更 模式 ， 否 则 应 该 和 数据 
库 可 靠 性 工程 师 一 起 建立 一 种 新 的 变更 模式 。 


1. 模式 : 锁 操 作 

在 大 多 数 数据 库 中 ， 新 增 列 是 常见 的 操作 。 根 据 所 使 用 的 DBMS， 这 些 操作 可 以 快速 而 简 
单 ， 不 需要 锁定 表 。 有 些 DBMS 则 需要 重建 整个 表 。 当 新 增 列 时 ， 可 能 需要 设置 默认 值 ， 
这 无 疑 会 对 数据 库 产生 重大 影响 ， 因 为 该 默认 值 必须 写 入 已 有 的 每 一 行 数据 中 ， 之 后 才能 
完成 变更 并 释放 锁 。 


避免 菜 些 锁 操 作 的 一 个 办 法 是 利用 代码 ， 例 如 : 








tT 

































































。 添加 空 列 ，; 

。 执行 回归 测试 ， 

。 在 访问 时 利用 select 语句 中 的 条 件 确 定 一 行 是 否 需 要 更 新 ， 而 不 是 作为 批 处 理 语句 执行 ， 
。 监控 何 时 该 属性 已 经 全 部 更 新 完毕 ， 可 以 删除 条 件 代 码 。 














对 于 某 些 操作 ， 锁 定 对 象 是 不 可 避免 的 。 在 这 种 情况 下 ， 必 须 为 工程 师 提 供 一 种 自动 的 或 
手动 的 模式 。 该 模式 可 能 是 通过 触发 器 和 表 重 命名 进行 在 线 变更 的 工具 ， 也 可 能 是 利用 代 
理 和 故障 转移 在 离线 节点 上 逐个 应 用 变更 的 滚动 变更 。 








有 两 种 方式 : 一 种 轻 量 ， 男 一 种 步 又 更 多 。 这 样 ， 只 需 对 有 重大 影响 的 变更 采用 复杂 模 
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式 。 然 而 ， 这 可 能 导致 过 度 依赖 一 个 过 程 ， 另 一 个 过 程 未 被 实践 而 问题 重重 。 因 此 ， 最 好 
采用 对 所 有 锁定 操作 最 有 效 的 流程 。 


2. 模式 : 占用 资源 较 多 的 操作 
根据 所 要 执行 的 操作 ， 有 很 多 模式 可 以 利用 。 











对 于 数据 修改 ， 当 需要 执行 大 量 操作 时 ， 工 程 师 可 以 采用 一 种 简单 模式 : 通过 执行 批 处 理 操 
作 进行 限制 。 对 于 更 大 的 环境 ， 在 用 户 登录 时 通过 代码 延迟 更 新 或 者 查询 ， 通 常 更 有 意义 。 





对 于 数据 删除 ， 软 件 工程 师 在 其 代码 中 可 以 使 用 软 删 除 。 软 删除 会 将 一 行 数据 标记 为 “可 
删除 ”"， 这 行 数据 在 应 用 程序 查询 时 会 被 过 滤 ， 并 按 需 删除 。 这 样 就 可 以 限制 删除 操作 ， 
异步 删除 这 些 数据 了 。 对 于 大 型 数据 集 的 批量 更 新 ， 这 种 方式 可 能 不 可 行 。 如 果 删 除 是 按 
范围 (比如 日 期 或 了 D 分 组 ) 定期 执行 的 ， 则 可 以 利用 分 区 特性 删除 分 区 。 删 除 一 个 表 或 
者 分 区 不 会 产生 回 退 TO， 从 而 减少 资源 消耗 。 











如 果 发 现 DDL 操作 (比如 表 更 改 ) 产生 了 足以 影响 响应 时 间 的 WO， 则 应 将 其 视 为 危险 信 
号， 即 容量 可 能 已 达到 极限 。 理 想 情 况 下 ， 要 和 运 维和 人 员 一 起 向 存储 系统 中 添加 更 多 资源 ， 
但 如 果 这 不 可 行 或 者 被 推迟 ， 则 应 将 这 些 DDL 操作 视 为 阻塞 操作 ， 并 对 其 应 用 适当 的 模式 。 


3. 模式 : 滚动 变更 

如 前 所 述 ， 让 工程 师 可 以 在 集群 中 的 节点 上 逐步 应 用 变更 是 有 意义 的 。 这 通常 称 为 滚动 升 
级 ， 因 为 是 在 逐 市 点 执行 变更 。 根 据 集群 能 从 任意 节点 写 入 ， 还 是 只 能 从 某 个 闻 点 写 入 ， 
实现 滚动 升级 的 方式 会 有 所 不 同 。 












































在 任意 节点 可 写 入 的 集群 (比如 Galera) 中 ， 可 以 通过 从 服务 目录 或 者 代理 配置 中 移 除 市 
点 ， 让 该 市 点 不 再 提供 服务 。 市 点 没有 流量 之 后 ， 便 可 执行 变更 操作 。 然 后 重新 配置 市 点 
或 将 其 注册 到 服务 目录 中 ,使 其 重新 提供 服务 。 























在 只 有 主 节 点 可 写 的 集群 中 ， 只 有 一 个 市 点 提供 写 入 服务 ， 可 以 像 在 任意 节点 都 可 写 入 的 
集群 中 那样 ， 让 从 节点 停止 服务 。 但 是 ， 当 除 主 节 点 外 的 所 有 节点 都 更 新 后 ， 需 要 进行 故 
障 转移 ， 将 写 切换 到 已 经 更 新 的 节点 上 。 


显然 ， 这 两 种 选择 都 需要 大 量 的 编排 工作 。 了 解 哪 些 操 作 耗 时 耗 力 、 需 要 滚动 升级 ， 对 于 
选择 数据 库 非 常 重要 ， 这 也 是 许多 人 在 研究 如 何 让 数据 库 schema 变更 影响 变 小 的 原因 。 


4. 变更 测试 
尽管 这 似乎 是 显而易见 的 ， 但 必须 认识 到 ， 如 果 变 更 集 的 实现 细节 修改 了 ， 那 么 在 部 署 到 
后 集成 环境 〈 包 括 生 产 环境 ) 前 ， 相 应 的 变更 修改 必须 签 入 并 完成 集成 测试 。 














5. 回 滚 测试 
除了 测试 变更 及 甚 影响， 数据 库 可 靠 性 工程 师 及 所 支持 的 团队 还 要 考虑 变更 或 部 署 失 败 时 ， 
回 深部 分 或 全 部 变更 集 的 策略 。 数 据 库 变更 脚本 应 该 和 变更 同时 签 入 。 某 些 变 更 (比如 建 表 








操作 ) 可 能 会 自动 生成 默认 值 ， 但 是 必须 考虑 已 生成 的 数据 ， 所 以 不 建议 通过 简单 地 删除 对 
象 来 恢复 。 在 已 有 数据 写 入 且 必 须 恢复 时 ， 重 命名 表 可 以 让 这 些 数 据 仍然 可 访问 。 


变更 模式 可 以 简化 定义 回 滚 的 过 程 。 有 效 的 回 滚 脚本 是 集成 和 部 署 的 一 个 重要 准 入 条 件 。 
要 验证 回 滚 脚本 是 否 有 效 ， 可 以 利用 下 面 的 部 署 和 测试 模式 : 


。 应 用 变更 集 ; 

。 快速 集成 测试 ， 

。 应 用 回 滚 变 更 集 ; 

。 快速 集成 测试 ， 

。 应 用 变更 集 ; 

。 快速 集成 测试 ， 

。 长 时 间 的 周期 性 测试 。 


回 退 测试 和 恢复 策略 测试 同样 重要 ， 必 须 将 其 融入 所 有 构建 过 程 和 部 署 过程 。 


8.4.4 手动 或 自动 化 
应 用 变更 模式 的 另 一 个 优点 是 ， 变 更 模式 可 以 实现 自动 批准 和 部 署 ， 无 须 等 待 数据 库 可 千 
性 工程 师 团队 审查 和 执行 。 此 外 ， 有 些 模式 可 以 自动 标记 为 需要 数据 库 可 靠 性 工程 师 处 
里 ， 以 便 在 自动 化 流程 之 外 实施 。 


不 必 刻 意 追 求 自动 化 ， 尤 其 在 处 理 重要 数据 时 。 虽 然 根据 社区 最 佳 实践 ， 任 何 频 昆 执 行 的 
操作 都 应 该 尽 可 能 自动 化 ， 但 失败 的 自动 化 产生 的 影响 会 抵消 其 带 来 的 好 处 。 如 果 已 经 构 
建 了 一 个 环境 ， 并 且 该 环境 经 过 测试 ， 还 具有 可 靠 的 回 退 机 制 、 快 速 的 恢复 流程 以 及 成 就 
的 工程 师 ， 那 么 可 以 采用 变更 模式 ， 并 将 变更 相关 的 应 用 自动 化 。 只 要 朝 着 标准 化 模型 、 
一 键 部 署 和 回 退 ， 以 及 建立 防护 措施 的 方向 前 进 ， 便 是 在 向 目标 迈进 。 
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8.5 小结 


本 章 讨论 了 数据 库 可 靠 性 工程 师 团队 在 软件 开发 的 各 个 阶段 (开发 、 集 成 、 测 试 和 部 署 ) 
为 软件 开发 团队 创造 价值 的 方法 。 再 怎么 强调 也 不 为 过 ， 这 在 很 大 程度 上 依赖 数据 库 可 靠 
性 工程 师 、 运 维和 人 员 以 及 软件 工程 师 团 队 的 通力 合作 和 良好 关系 。 在 此 过 程 中 ， 数 据 库 可 
靠 性 工程 师 必须 扮演 老师 、 外 交 家 、 协 调 者 和 学 生 的 角色 。 在 培训 人 员 和 人 际 关系 中 投入 
得 越 多 ， 应 用 本 章 所 介绍 的 知识 时 收获 就 越 多 。 

os an le ml 


更 和 功能 都 可 能 包含 漏洞 ， 必 须 将 其 考虑 在 内 并 设法 减少 。 第 9 章 将 讨论 数据 库 可 靠 性 工 
程 师 如 何在 安全 规划 和 流程 中 做 出 贡献 。 


















































保障 数据 安全 是 数据 库 管理 员 的 一 项 重要 工作 。 数 据 是 公司 最 重要 的 资产 ， 数 据 安 全 与 数 
据 恢 复 一 样 至 关 重 要 。 然 而 ， 安 全 事故 和 攻击 事件 日 渐 频 和 党， 只 要 打开 新 闻 ， 就 会 看 到 成 
百 上 千 〈 甚 至 上 百 万 ) 的 用 户 档案 、 人 信用卡、 电子 邮件 等 信息 被 窃取 并 转卖 的 安全 事件 。 











在 分 工 明确 的 情况 下 ， 数 据 库 管理 员 只 负责 安全 控制 ， 而 强化 隔离 措施 以 及 识别 安全 问题 
则 由 他 人 人 负责。 但 作为 公司 数据 的 管理 员 ， 数 据 库 可 靠 性 工程 师 要 全 面 考 虑 安全 这 项 工作 。 











前 面 讨 论 了 持续 部 署 流程 、 云 计算 环境 以 及 基础 设施 即 代码 ， 攻 击 者 为 了 获取 想 要 的 数 
据 ， 可 能 会 将 这 些 作为 攻击 对 象 。 本 章 为 数据 库 可 靠 性 工程 师 起 草 了 一 份 数据 库 安 全 规 
范 ， 以 适应 当今 组 织 和 基础 设施 的 需要 ， 然 后 将 依据 该 规范 讨论 潜在 的 攻击 对 象 、 减 轻 攻 


县 : 


影响 的 方法 和 策略 ， 以 及 数据 库 可 靠 性 工程 师 可 以 拥护 的 整体 模式 。 


9.1 安全 的 目标 


如 第 7 章 所 讨论 的 ， 数 据 安全 与 数据 恢复 同等 重要 。 根 据 数据 敏感 性 的 不 同 ， 数 据 被 窃 与 


数据 损坏 可 能 一 样 糟糕 。 正 如 数据 恢复 的 应 用 范围 较 广 〈 不 仅 用 于 紧急 恢复 )， 安 全 功能 
也 有 很 多 用 途 。 


9.1.1 防止 数据 被 窃 

这 是 数据 安全 的 典型 应 用 场景 。 大 部 分 情况 下 ， 对 于 每 个 存储 数据 的 机 会 ， 都 可 能 有 人 试 
图 非法 访问 数据 。 有 些 人 (内 部 的 或 外 部 的 ) 想 获得 数据 库 访问 权限 以 便 倒 卖 用 户 数据 ， 
或 窃取 商业 机 密 ， 或 单纯 想 利 用 获得 的 数据 搞 破 坏 。 可 能 遭 到 这 类 攻击 的 数据 包括 : 
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。 线 上 数据 库 中 的 数据 ， 

。 数据 存储 之 间 移 动 的 数据 ; 

。 备份 和 归档 的 数据 ; 

。 从 数据 存储 发 送 到 应 用 程序 或 者 客户 端的 数据 ， 
。 内 存 或 应 用 程序 服务 器 上 的 数据 ， 

。 从 应 用 程序 经 网 络 发 送 给 用 户 的 数据 。 


如 前 所 述 ， 盗 窃 者 并 非 都 来 自 外 部 。 了 解 内 部 系统 并 获得 访问 授权 的 内 部 用 户 ， 甚 至 比 很 
多 来 自 外 部 网 络 的 攻击 者 更 具 威 胁 。 无 论 攻击 者 来 自 哪 里 ， 数 据 库 可 靠 性 工程 师 都 需要 和 
安全 管理 员 、 运 维 人 员 及 软件 工程 师 一 起 ， 保 证 数据 被 正常 读 取 、 复 制 和 传输 。 


9.1.2 ”防止 故意 破坏 

亚 意 破坏 有 时 单纯 是 为 了 打击 公司 。 攻 击 者 会 用 各 种 方式 破坏 公司 的 数据 库 和 数据 ， 包 括 
损坏 或 操纵 数据 、 关 闭 数据 库 或 消耗 各 种 IT 资源 直到 不 可 访问 为 止 等 。 他 们 会 采用 DoS 
(denial of service， 拒 绝 服务 ) 攻击 ， 利 用 漏洞 关闭 数据 库 ， 或 者 获取 并 操纵 数据 。 对 这 类 
攻击 而 言 ， 虽 然 可 以 利用 备份 进行 恢复 ， 但 毁坏 备份 比 毁 坏 线 上 存储 更 容易 。 


9.1.3 ”防止 意外 损坏 

尽管 安全 通常 指 防 止 坏人 入 侵 ， 但 避免 有 人 无 意 进 入 错误 的 环境 ， 或 使 用 错误 的 schema 
和 对 象 ， 从 而 导致 数据 意外 损坏 同样 重要 。 防 护 措施 可 以 阻挡 外 来 者 ， 也 可 以 警告 人 们 他 
们 正在 进入 禁区 。 对 于 防止 数据 被 窃 而 言 ， 内 部 恶意 破坏 者 更 具 威 胁 ， 他 们 利用 工具 和 证 
书 可 迅速 制造 灾难 。 


9.1.4 防止 数据 泄露 

即使 没有 有 意 或 无 意 的 入 侵 者 ， 也 依然 存在 风险 。 在 复杂 的 分 布 式 和 解 耦 的 系统 中 ， 很 容 
易 因 bug 或 证 书 配置 错误 ， 导 致 在 用 户 浏览 器 或 者 电子 邮件 中 明文 公开 日 志 中 的 敏感 数 
据 ， 甚 至 允许 未 经 授权 的 人 以 用 户 身份 登录 他 人 账户 。 这 种 信息 泄露 会 导致 用 户 质疑 公司 
托管 和 保护 数据 的 能 


9.1.5 ” 合 规 与 审计 标准 

组 织 受 到 众多 用 于 保护 用 户 和 个 人 利益 的 标准 和 法 律 法 规 的 严格 监管 。 对 组 织 进行 相关 标 
准 的 培训 并 确保 组 织 行为 符合 规定 ， 是 安全 范畴 的 工作 。 这 是 一 项 吃力 不 讨好 的 工作 ， 并 
常常 使 专注 于 新 功能 和 组 织 扩 张 的 人 感到 挫败 。 不 过 ， 如 果 组 织 不 希望 因此 被 罚款 甚至 倒 
闭 ， 就 需要 重视 这 项 工作 。 












































9.2 数据库 安 全 即 功能 


通过 跨 职能 部 门 的 人 际 关 系 和 方法 来 保障 数据 库 可 靠 性 ， 是 本 书 一 直 倡导 的 理念 。 数 据 库 
可 靠 性 工程 师 已 逐渐 成 为 公司 其 他 团队 的 联络 人 、 主 题 专家 和 培训 师 。 随 着 开发 团队 规模 
的 快速 增长 ， 这 是 唯一 的 发 展 途径 。 公 司 内 的 信息 安全 专家 通常 人 手 不 足 ， 这 使 得 数据 库 
可 靠 性 工程 师 和 信息 安全 团队 在 面 对 不 断 变化 的 状况 时 ， 难 以 有 效 地 保护 公司 数据 。 

如 第 8 章 所 述 ， 本 书 致力 于 通过 自助 服务 、 培 训 和 择优 选择 的 方法 ， 来 实现 安全 、 有 效 、 
快速 的 开发 。 开 发 人 员 处 在 保障 数据 安全 的 第 一 线 ， 他 们 将 以 类 似 的 方式 实践 本 书 所 讨论 
的 方法 。 安 全 性 必须 最 先 集成 到 应 用 程序 和 基础 设施 的 开发 流程 中 ， 而 不 是 在 发 布 时 作为 
合 规 性 条 款 的 旁 注 或 可 选项 。 


怎样 才能 做 到 这 一 点 呢 ? 可 以 使 用 本 书 介 绍 的 工具 来 完成 此 任务 。 





























9.2.1 培训 与 合作 

第 8 章 详细 讨论 过 这 一 点 ， 可 总 结 为 如 下 3 个 方法 : 
鼓励 沟通 交流 ; 
建立 专业 领域 知识 库 ; 
通过 结对 和 评审 方式 开展 合作 。 








这 样 做 是 为 了 教 开发 人 员 如 何 更 有 效 、 更 安全 地 开发 自己 的 防御 系统 ， 以 便 抵 御 针对 公司 
数据 存储 的 攻击 。 这 样 可 以 提高 应 用 程序 的 性 能 和 效率 ， 减 少 由 于 实现 不 佳 和 设计 精 糕 而 
导致 的 停机 和 服务 质量 下 降 ， 并 提高 开发 团队 的 开发 速度 。 同 样 ， 也 要 持续 开展 数据 库 安 
全 培训 ， 包 括 如 下 几 点 。 


。 安全 的 数据 库 访问 配置 和 控制 。 

。 有 效 利用 安全 功能 ， 比 如 加 密 、 细 粒度 访问 控制 和 数据 管理 。 
。 数据 库 对 监控 工具 、 日 志 、 遥 测 设备 等 公开 了 什么 数据 ， 以 便 发 现 恶意 和 破坏 性 行为 。 
。 数据 库 特 有 的 漏洞 必须 在 其 他 层 进 行 管理 ， 包 括 发 布 CVE 新 条 目 后 的 升级 。 



























































CVE 

CVE 代表 公共 漏洞 和 暴露 (common vulnerabilities and exposures， 参 见 CVE 
数据 库 )。 你 也 可 以 关 广 感 兴趣 的 主题 (比如 SQL 注入 漏洞 )。 这 些 资源 非 
常 好 ， 有 助 于 你 了 解 新 发 现 的 漏洞 和 已 知 漏洞 。 











通过 持续 培训 和 协作 ， 数 据 库 安全 在 公司 内 逐渐 成 为 一 个 经 常 讨论 的 话题 ， 不 断 探 索 和 深 
入 研究 。 








9.2.2 ”自助 服务 

为 数据 库 安全 创建 自助 服务 ， 是 构建 严谨 、 成 熟 的 安全 流程 的 下 一 步 ， 该 流程 可 以 随 着 开 
发 团队 的 规模 和 功能 研发 速度 而 扩展 。 数 据 库 可 靠 性 工程 师 不 可 能 亲自 审阅 每 一 个 新 功 
能 、 新 服务 以 及 新 数据 库 ， 相 反 ， 随 着 待 办 事项 越 来 越 多 ， 他 们 会 发 现 自己 经 常 成 为 审阅 
请 求 的 瓶颈 。 所 以 ， 请 和 信息 安全 团队 一 起 建立 可 复 用 、 经 过 验证 的 安全 模式 ， 这 样 工程 
师 可 以 在 需要 的 时 候 签 出 该 模式 ， 从 而 实现 可 扩展 的 安全 流程 。 



























































如 第 5 章 所 述 ， 基 础 设施 即 代码 可 以 实现 所 有 数据 存储 的 部 署 模板 〈 经 过 验证 的 )， 这 些 
模板 可 以 应 用 于 任何 即将 投入 使 用 的 数据 存储 中 。 这 意味 着 ， 数据库 可 靠 性 工程 师 的 大 部 
分 时 间 将 花 在 建立 这 类 黄金 标准 、 进 行 漏 洞 研 究 ， 以 及 修改 和 更 新 平台 的 部 署 模 板 上 ， 以 
减轻 漏洞 的 影响 ， 具 体 包括 以 下 内 容 。 


。 批准 软件 构建 号 。 

。 删除 数据 库 的 默认 账号 和 密码 。 

。 关闭 不 必要 的 端口 。 

。 建立 有 效 的 访问 受 限 列表 ， 以 减少 数据 库 的 入 口 点 。 

。 删除 允许 通过 文件 系统 或 网 络 实施 攻击 的 功能 和 配置 。 

。 安装 并 设置 SSL (secure sockets layer， 安 全 套 接 字 层 ) 的 通信 密 钥 。 
用 于 检查 和 实施 密码 策略 的 脚本 。 
配置 审计 和 日 志 转 发 ， 以 确保 所 有 访问 都 可 以 被 审查 ， 并 且 不 被 自 改 。 
































通过 签 入 以 上 内 容 ， 并 保证 其 在 部 署 新 数据 存储 时 可 用 ， 你 可 以 提前 批准 采用 了 这 些 黄金 
标准 的 基础 设施 。 这 样 数据 库 可 靠 性 工程 师 和 信息 安全 团队 就 不 用 再 花 时 间 检 查 和 报告 已 
经 安装 补丁 的 漏洞 了 。 




















除 基 础 设施 自助 服务 外 ,日志 、 验 证 、 密 码 散 列 、 加 密 等 代码 库 也 可 以 签 入 并 启用 ， 也 包 
括 客 户 端 软件 。 


构建 自己 的 数据 库 客户 端 

与 基础 设施 自助 服务 类 似 ， 提 供 客户 端 和 库 的 自助 服务 是 有 效 的 技术 。 厂 
商 提供 的 客户 端 通常 暗含 了 一 些 变通 方案 ， 而 这 些 方案 日 后 可 能 暴露 未 知 
漏洞 。 这 些 客户 端 为 了 向 后 兼容 经 常 使 用 旧版 本 的 协议 。 而 编写 自己 的 客 
户 端 可 以 降低 未 知 因素 带 来 的 风险 ， 并 且 能 控制 数据 库 的 核心 层 : 访问 层 。 



































9.2.3 ”集成 和 测试 

集成 和 测试 往往 能 尽早 发 现 漏 洞 。 尽 量 不 要 在 开发 流程 的 后 期 才 发 现 漏 洞 ， 因 为 此 时 修复 
漏 润 的 成 本 会 成 倍增 加 。 另 外 ， 鉴 于 占有 测试 和 和 集成 服务 器 的 潜入 者 可 以 轻易 地 绕 过 所 有 
测试 并 注入 恶意 代码 ， 和 集成 和 测试 过 程 也 是 汤 洞 被 利用 的 高 危 风险 点 。 
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集成 过 程 中 ， 获 批 的 标准 测试 可 以 自动 检验 有 无 引入 漏洞 。 标 准 测 试 包括 (但 不 限于 ) 下 
面 内 容 : 


。 数据 库 访 问 功 能 中 的 SQL 注入 漏洞 ， 
。 测试 验证 层 常见 缺陷 ， 包 括 明文 通信 、 纯 文本 证 书 存储 和 以 高 级 管理 员 身 份 建立 连接 ; 
。 测试 新 代码 的 漏洞 ， 比 如 缓冲 区 溢出 。 











除了 签 入 后 立即 触发 的 测试 ， 还 可 以 定期 执行 更 细致 的 异步 测试 。 这 些 测 试 包括 应 用 级 别 
的 渗透 测试 ， 以 及 在 网 络 中 对 漏洞 进行 的 严格 测试 。 这 些 漏洞 可 以 由 未 经 身份 验证 和 已 验 
证 的 方式 被 利用 ， 从 而 获得 数据 库 或 操作 系统 的 访问 权限 。 





9.2.4 运 维 可 见 性 
将 安全 功能 的 输出 集成 到 标准 日 志和 监控 系统 及 其 输出 中 至 关 重 要 。 这 些 数据 来 自 整个 系 
统 的 各 处 ， 包 括 应 用 程序 层 、 数 据 库 层 和 操作 系统 层 ， 详 细 内 容 见 第 4 章 。 











1. 应 用 程序 层 监控 

追踪 发 送 到 数据 库 的 所 有 成 功 和 失败 的 SQL 语句 ， 对 于 发 现 SQL 注入 攻击 非常 重要 。 
SQL 语法 错误 是 重要 迹象 ， 预 示 着 有 人 或 某 个 工具 正在 尝试 通过 应 用 程序 将 计划 外 的 SQL 
语句 传 给 数据 库 。 在 正常 运行 、 经 过 测试 的 应 用 程序 中 ， 语 法 错误 是 很 少见 的 。 类 似 地 ， 
仔细 研究 就 会 发 现 ，SQL 注入 模式 经 常会 出 现 一 些 字符 ， 此 类 字符 往往 预示 着 攻击 正在 进 
行 ， 包 括 UNION 和 LOAD_FILE 语句 。9.3 节 将 进一步 讨论 。 














审计 数据 应 该 围绕 PH 和 关键 数据 进行 收集 。 利 用 元 数据 将 API 端点 标记 为 是 否 属于 PII 
或 影响 是 否 严重 ， 以 便 收 集 关 于 访问 、 修 改 、 删 除数 据 (比如 密码 、 电 子 邮件 、 信 用 卡 或 
文档 块 ) 等 细 粒 度 的 信息 。 尽 管 数据 库 层 也 有 审计 功能 ， 但 应 用 程序 层 的 审计 便于 让 合适 
的 人 员 获 得 访问 权限 ， 以 判断 应 用 程序 代码 是 否 被 无 意 或 故意 滥用 。 



































2. 数据 库 层 监控 
在 数据 库 层 应 该 记录 所 有 活动 ， 并 推送 到 监控 系统 以 便 分 析 。 下 面 是 一 些 值得 关注 的 活动 。 


口 配置 变更 
在 文件 中 或 内 存 中 会 发 生 这 类 变化 ， 配 置 文件 变更 可 能 会 为 攻击 者 打开 “方便 之 门 ”。 


口 数据 库 用 户 变 更 
对 于 所 有 权限 或 密码 变更 以 及 新 增 用 户 ， 都 需要 检查 签 入 代码 和 集成 的 相应 迁移 ， 否 则 
这 些 变更 可 能 会 导致 安全 漏洞 。 
口 所 有 的 增删 改 查 
数据 库 级 别 的 审计 日 志 为 应 用 程序 审计 日 志 提 供 了 良好 的 补充 。 大 量 的 查询 或 修改 、 不 
符合 预期 的 用 户 查 询 和 大 结果 集合 都 是 潜在 问题 的 征兆 。 



































口 新 数据 库 对 象 ， 尤 其 是 存储 的 代码 
新 增 或 修改 的 函数 、 步 又 、 触 发 器 、 视 图 以 及 UDF (user-defined function， 用 户 定义 的 
函数 )， 应 该 和 数据 库 迁 移 相 关联 ， 因 为 它们 可 能 是 漏洞 被 利用 的 征兆 。 


口 成 功 或 失败 的 登录 
任何 数据 库 都 有 预期 的 流量 模式 。 应 用 程序 的 用 户 通常 来 自 特定 的 主机 组 ， 一 般 不 应 该 
直接 登录 数据 库 。 在 某 些 环境 中 ， 如 果 登 录 不 是 来 自 应 用 程序 服务 器 、 代 理 或 其 他 已 授 
权 的 客户 端 ， 则 可 以 将 对 该 数据 存储 的 访问 标记 为 可 疑 行为 。 















































口 补丁 与 二 进 制 文件 变更 
通过 网 络 缓冲 区 溢出 或 利用 其 他 漏洞 ， 以 操作 系统 授权 用 户 身 份 安装 热 补丁 ， 这 些 变更 
可 能 会 预 留 “ 后 门 ”或 注入 潜在 的 恶意 代码 。 


3. 操作 系统 监控 
和 数据 库 一 样 ， 也 要 仔细 监控 和 记录 操作 系统 的 活动 ， 包 括 以 下 内 容 。 








口 配置 变更 
类 似 于 数据 库 变 更 。 


口 新 增 的 软件 、 脚 本 和 文件 
在 临时 目录 、 日 志 目 录 或 其 他 预期 放置 新 文件 的 目录 之 外 的 区 域 ， 出 现 新 的 或 修改 过 的 
软件 、 脚 本 或 文件 ， 往 往 是 不 好 的 征兆 。 定 期 将 这 些 文件 和 黄金 镜像 做 对 比 ， 可 以 发 现 


人 一 
恶意 行为 。 


口 成 功 和 失败 的 登录 
类 似 于 数据 库 登 录 。 


口 补丁 与 二 进 制 文件 变更 
与 数据 库 的 此 类 变更 相同 。 


全 面 的 数据 收集 结合 有 效 的 对 比 和 异常 检测 工具 ， 对 于 发 现 利 用 已 知 安全 问题 的 恶意 行为 
至 关 重 要 。 能 将 所 有 攻击 者 挡 在 门 外 ， 并 且 及 时 更 新 的 全 面 安 全 策略 并 不 存在 ， 所 以 有 效 
的 监控 系统 是 必需 的 。 数 据 库 可 靠 性 工程 师 团队 必须 和 运 维 团队 、 信 息 安 全 团队 以 及 软件 
工程 师 全 力 协作 确保 系统 安全 。 


9.3 漏洞 和 漏洞 利用 


前 面 从 高 层次 讨论 了 数据 库 可 靠 性 工程 师 在 安全 方面 的 主要 工作 职责 ， 即 帮助 构建 可 扩展 
的 安全 功能 。 下 面 讨论 各 种 潜在 威胁 ， 数 据 库 可 靠 性 工程 师 在 公司 中 进行 安全 培训 ， 构 建 
自助 服务 平台 ， 建 立 相 应 的 监控 、 模 板 和 脚本 时 ， 必 须 考 虑 这 些 闹 在 的 漏洞 并 做 好 准备 。 
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在 对 威胁 建 模 时 ， 分 类 和 划分 优先 级 很 重要 ， 结 合 其 他 因素 进行 权衡 并 确定 优先 级 更 重 
要 ， 在 这 方面 已 有 一 些 结构 化 的 方法 。 微 软 已 经 公开 了 其 威胁 分 类 模型 STDRE 和 威胁 评 
级 模型 DREAD。 














9.3.1 STRIDE 
STRIDE 是 一 个 分 类 方案 ， 根 据 漏 洞 类 型 (或 攻击 者 的 动机 ) 来 描述 已 知 威胁 。STRIDE 
这 个 名 称 取 自 下 面 每 个 分 类 的 首 字 母 。 
口 假冒 身份 (spoofing identity) 
假冒 身份 即 冒 充 其 他 用 户 进而 绕 过 访问 控制 。 因 为 大 部 分 多 用 户 的 应 用 程序 最 终 以 某 个 
用 户 的 身份 访问 数据 库 ， 所 以 假冒 身份 有 巨大 的 风险 。 











口 算 改 数据 (tampering with data) 
除了 假冒 身份 进行 操作 ， 用 户 还 可 以 通过 应 用 程序 的 POST 行为 修改 数据 。 数 据 验 证 和 
用 于 管理 的 API 对 于 防止 这 种 情况 发 生 非 常 重要 。 





口 抵赖 《repudiation) 
如 果 没 有 合理 的 审计 ， 客 户 和 内 部 用 户 可 能 会 对 他 们 所 采取 的 行动 提出 异议 ， 这 会 导致 
纠纷 、 审 计 失 败 以 及 无 法 发 现 恶意 行为 ， 进 而 造成 财务 损失 。 


口 信息 泄露 (information disclosure) 
用 户 的 隐私 信息 可 能 被 公开 ， 落 入 竞争 对 手 或 恶意 买 家 之 手 。 这 也 包括 意外 的 信息 泄露 。 








口 DoS (denial of service) 
应 用 程序 和 某 些 基础 设施 组 件 也 可 能 成 为 DoS 攻击 的 目标 ， 一些 非 常 消耗 资源 的 操作 
和 来 自 全 球 的 大 量 请 求 都 可 能 导致 DoS 攻击 。 





口 权限 提升 〈elevation of privilege) 
用 户 可 能 获得 更 高 的 权限 ， 甚 至 以 root 身份 访问 服务 器 。 


9.3.2 DREAD 
DREAD 威胁 评级 模型 可 以 根据 威胁 的 风险 分 析 风 险 和 划分 优先 级 。DREAD 算法 用 于 计算 
风险 值 ， 它 是 下 面 5 类 风险 的 平均 值 。 
口 潜在 损失 (damage potential) 

如 果 漏 洞 被 利用 ， 会 造成 多 大 损失 ? 

。 0: 没有 损失 。 

。 5: 用 户 数据 被 盗 或 受 影响 。 

10: 整体 系统 或 数据 被 摧毁 。 





口 可 重 现 性 〈reproducibility ) 
重复 攻击 的 难度 有 多 大 ? 


。 0: 即使 是 应 用 程序 的 管理 员 也 很 难 重 现 或 不 可 能 重 现 。 
。 5: 需要 一 到 两 个 步骤 ， 也 许 需 要 成 为 授权 用 户 。 
10: 只 要 有 浏览 器 和 地 址 栏 就 够 了 ， 不 需要 任何 验证 。 





口 可 利用 性 (exploitability) 
利用 该 威胁 的 必要 条 件 有 哪些 ? 


。 0: 高 级 编程 和 网 络 知识 ， 定 制 或 先进 的 攻击 工具 。 
。 5 : 网 络 上 已 有 的 恶意 软件 ， 或 者 通过 攻击 工具 可 以 轻松 利用 漏洞 。 
10: 仅 需 一 个 Web 浏览 器 。 





口 影响 的 用 户 (affected users) 
影响 了 多 少 用 户 ? 
。 0: 一 个 都 没有 。 


。 5: 有 一 些 ， 但 非 全 部 。 
10: 所 有 用 户 。 


口 可 发 现 性 〈discoverability) 
发 现 这 个 漏洞 的 难度 有 多 大 ? 


。 0: 几乎 不 可 能 ， 需 要 源 代 码 或 者 管理 员 权限 。 

。 5: 可 以 通过 猜 负 或 通过 监控 网 络 轨迹 发 现 。 

。 9: 这 类 漏洞 的 细节 已 在 网 上 公开 ， 通 过 搜索 引擎 很 容易 搜 到 。 
10: 相关 信息 在 浏览 器 地 址 栏 或 者 表单 中 可 见 。 


当 逐 个 考虑 每 个 潜在 的 攻击 媒介 时 ， 通 过 这 种 分 类 ， 可 以 决定 将 精力 和 资源 集中 在 哪里 。 
9.3.3 ”基本 预防 措施 


下 面 讨论 各 种 可 行 的 预防 措施 ， 并 提供 各 种 数据 存储 中 的 示例 ， 其 中 包括 之 后 将 讲解 的 通 
用 缓解 技术 ， 其 中 一 些 技术 适用 于 多 个 类 别 。 





口 配置 
从 数据 库 中 删除 所 有 不 必要 的 功能 和 配置 。 许 多 数据 库 系统 功能 丰富 ， 而 大 多 数 应 用 程 
序 只 能 用 到 其 中 一 小 部 分 功能 ， 关 闭 不 必要 的 功能 可 以 减少 攻击 媒介 。 





口 打 补 丁 
持续 扫描 数据 库 的 漏 调 并 打 补丁 。 保 持 最 新 状态 将 降低 漏洞 被 利用 的 风险 。 
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口 删除 不 必要 的 用 户 
默认 用 户 和 密码 是 众所周知 的 ， 因 而 会 带 来 很 大 的 风险 。 











口 网 络 和 主机 访问 
使 用 防火 墙 和 安全 组 ， 能 最 大 限度 地 减少 可 以 通过 端口 访问 数据 库 的 主机 组 。 同 样 ， 通 
过 身份 和 权限 限制 ， 最 大 限度 地 控制 对 系统 的 访问 也 是 当务之急 。 


使 用 默认 值 的 风险 

在 撰写 本 文 时 ， 监 听 公 共 卫 的 MongoDB 和 Elasticsearch 数据 库 的 漏洞 造成 
了 广泛 的 影响 ， 而 此 类 问题 是 可 以 避免 的 。2015 年 ，Shodan 上 的 一 篇 文章 
“It's the Data, Stupid!” 揭 露 了 3 万 多 个 MongoDB 实例 可 公开 访问 ， 因 为 默 
认 监 听 卫 为 0.0.0.0 并 且 未 开启 身份 验证 。 仅 仅 因 为 没 人 关注 这 些 软件 时 
版 本 的 默认 值 ， 就 导致 超过 595.2 TB 的 数据 被 公开 。 









































下 面 讨论 以 下 内 容 : 


。 DoS 攻击 ; 
。 SQL 注入 ; 
网 络 和 身份 验证 协议 。 


9.3.4 DoS 攻击 
DoS 攻击 通过 向 服务 或 应 用 程序 发 送 大 量 请 求 ， 使 其 资源 饱和 ， 无 法 处 理 实际 用 户 的 请 
求 ， 从 而 使 服务 或 应 用 程序 不 可 用 。 这 类 攻击 的 形式 通常 是 ， 通 过 客户 端的 分 布 式 网 络 发 
送 海量 请 求 ， 以 耗 尽 网 络 带宽 。 另 一 种 形式 是 耗 尽 特定 服务 器 或 集群 〈 例 如 数据 库 ) 的 资 
源 。 通 过 耗 尽 CPU、 内 存 或 磁盘 资源 ， 使 得 关键 服务 器 变 得 无 响应 ， 从 而 导致 依赖 该 服务 
器 的 所 有 服务 都 不 可 用 。 




















这 些 攻击 通常 不 是 毁灭 性 的 ， 因 为 不 会 损坏 或 窃取 数据 ， 甚 目的 仅仅 是 让 服务 宕 机 ， 以 便 
造成 和 干扰、 打击 竞争 对 手 ,或 是 在 其 他 攻击 发 生 时 分 散 信息 安全 团队 和 运 维 团队 的 注意 力 。 





大 型 网 络 泛 洪 攻 击 是 很 常见 的 ， 因 此 大 多 数 防御 技术 都 将 重点 放 在 这 上 面 。 攻 击 者 会 选择 
攻击 脆弱 组 件 ， 这 些 组 件 可 用 资源 虽 少 ， 但 起 着 关键 作用 。 在 这 种 情况 下 数据 库 是 “ 理 
想 ” 的 攻击 目标 ， 因 此 就 出 现 了 DB-DoS (数据 库 拒绝 服务 攻击 )。 只 需 稍 做 手脚 ， 就 可 以 
在 数据 库 中 执行 大 量 逻 辑 ， 使 资源 饱和 ， 这 种 饱和 与 正常 的 流量 增长 看 起 来 差别 不 大 。 


DB-DoS 攻击 的 影响 包括 : 











消耗 用 户 连接 ， 直 到 耗 尽 应 用 程序 服务 器 的 所 有 可 用 连接 ， 
大 量 的 差异 化 查询 会 干扰 优化 器 ， 在 查询 优化 期 间 ， 这 些 查 询 需要 解析 、 散 列 和 检查 ; 








。 自动 扩展 资源 ， 直 到 触发 控制 预算 的 措施 ， 进 而 导致 服务 关闭 ; 
。 从 缓存 中 删除 有 效 数据 ， 导 致 大 量 的 磁盘 IO， 

。 增加 内 存 使 用 量 可 能 导致 页 置换 ， 

。 表 空 间 和 日 志 的 增长 用 尽 磁盘 空间 ，; 

。 由 于 大 量 写 入 而 导致 复制 延迟 过 多 ， 

。 操作 系统 资源 饥 俄 ， 包 括 文件 描述 符 、 进 程 或 共享 内 存 。 


有 些 方法 可 轻松 产生 上 述 影响 ， 最 简单 的 方法 就 是 利用 应 用 程序 本 身 的 功能 ， 例 如 : 


。 往 购 物 车 中 添加 大 量 商品 ; 
。 无 输入 或 输入 条 件 宽泛 的 搜索 ， 
。 API 响应 较 慢 ， 表 示 查 询 可 能 未 优化 或 未 被 索引 ， 因 此 成 为 反复 调用 攻击 的 目标 ，; 
。 在 输入 表单 中 增加 UNION 语句 ,会 导致 大 量 的 表 连 接 和 扫描 (这 也 是 一 种 SQL 注入 技术 )， 
。 对 大 型 结果 集 进行 排序 ， 
创建 边缘 情况 ， 例 如 论坛 应 用 程序 中 大 量 的 帖子 ， 或 社交 应 用 程序 中 大 量 的 好 友 。 






































与 滥用 应 用 程序 功能 类 似 ， 经 验 丰 富 的 攻击 者 可 以 识别 所 用 数据 库 ， 并 找到 关闭 数据 库 的 
方法 。 例 如 通过 错误 登录 来 锁定 用 户 ， 通 过 SQL 注入 来 执行 管理 命令 (可 能 会 清除 缓存 )， 
或 发 送 格式 错误 的 XML 致使 解析 器 溢出 。 





1. 缓解 
除了 讲 过 的 标准 缓解 技术 ，DB-Dos 最 有 效 的 缓解 方法 与 解决 流量 增长 问题 所 采取 的 技术 
非常 相似 。 下 而 会 给 出 一 个 “ 铁 三 角 ”， 它 可 以 应 对 突如其来 的 资源 利用 率 激增 (无 论 来 
自 合法 流量 还 是 非法 流量 )。 这 里 没有 提 到 自动 扩容 ， 因 为 容量 始终 存在 上 限 ， 无 论 是 由 
于 硬件 、 软 件 、 预 算 还 是 任何 DB-DoS 导致 的 。 



































2. 资源 管理 和 负载 削 凋 

随 着 时 间 的 推移 ， 技 术 团 队 将 了 解 应 用 程序 的 工作 负载 特征 。 可 以 合理 地 假设 他 们 应 该 能 
够 构建 一 套 工 具 ， 来 有 效 地 应 对 负载 激增 。 数 据 库 可 靠 性 工程 师 的 职责 是 帮助 培训 和 支持 
软件 工程 师 了 解 这 些 工作 负载 ， 并 确定 工作 的 优先 级 ， 以 便 有 效 降低 风险 。 工 具 如 下 。 


口 客户 端 限 流 
通过 限制 请 求 和 重 试 的 间隔 ， 可 以 防止 机 器 人 程序 反复 发 送 请 求 ， 并 且 可 以 有 效 减缓 或 
阻止 流量 激增 。 可 以 利用 普通 计数 器 、 指 数 下 降 和 重 试 比 例 ， 或 结合 应 用 程序 返回 的 有 
关 超 出 服务 等 级 配额 的 数据 实现 限 流 。 























口 服务 质量 
还 可 以 根据 重要 程度 对 应 用 程序 的 流量 进行 分 类 。 将 搜索 这 种 开销 大 的 查询 请 求 标记 为 
不 太 重 要 (因为 这 些 请 求 可 能 会 被 利用 )， 可 以 使 应 用 程序 强制 执行 服务 质量 配额 ， 从 
而 使 DB-DoS 更 难以 实现 。 
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口 减少 结果 集 
对 于 开销 大 的 查询 和 RPC (remote procedure call， 远 程 过 程 调用 ) ， 可 能 需要 开发 两 条 
执行 路 径 。 对 于 正常 负载 ， 完 整 的 执行 路 径 没 有 问题 ， 但 是 在 高 负载 (例如 在 DB-Dos 
期 间 生 成 的 负载 ) 期 间 ， 可 能 需要 减少 扫描 的 行 数 或 查询 的 分 片 数 。 


口 终结 查询 和 笨 办 法 
如 果 无 法 通过 代码 彻底 解决 这 个 问题 ， 可 能 需要 使 用 亦 力 。 结 束 长 时 间 运 行 的 查询 ， 或 
调 优 数据 库 层 性 能 以 减少 查询 的 资源 消耗 是 非常 有 效 的 ， 但 代价 是 缺乏 控制 力 且 用 户 体 
验 可 能 很 差 ， 而 这 难以 通过 代码 改善 。 


3. 持续 改善 数据 库 访问 和 工作 负载 

如 果 发 生 了 DB-DoS 攻击 ， 可 能 需要 数据 库 可 靠 性 工程 师 和 软件 工程 师 手 动 清理 数据 库 中 
开销 大 的 查询 。 由 于 这 些 查询 通常 可 能 不 是 正常 工作 负载 模式 的 一 部 分 ， 因 此 根据 数据 库 
层 资源 的 总 消耗 进行 调 优 的 方法 可 能 会 包 略 这 些 查 询 。 如 有 果 这 些 异 常 负载 很 少 出 现 ， 则 很 
容易 被 忽略 。 但 是 ， 狐 猎 的 攻击 者 可 能 会 发 现 这 种 漏洞 并 加 以 利用 。 这 意味 着 ， 良 好 的 性 
能 优化 方案 应 该 找 出 开销 最 大 的 查询 ， 并 将 其 放 入 待 优 化 队列 ， 而 无 须 考 虑 执行 频率 。 























4. 日 志和 监控 

无 论 上 述 措施 效果 如 何 ， 执 着 的 攻击 者 仍 有 可 能 攻击 你 的 数据 库 。 有 效 的 端点 调用 监控 应 
该 能 够 识别 出 尖峰 ， 并 通知 分 流 团队 限 流 甚至 关闭 。 同 样 ， 如 有 果 存 在 没有 上 限 的 查询 或 活 
动 ， 监 控 IN 子 句 中 的 项 目 数 、 内 存 结构 、 永 和 久 表 或 临时 表 以 及 类 似 结构 ， 有 助 于 识别 潜 
在 问题 。 


重要 的 是 要 记 住 ， 除 了 窃取 数据 或 故意 破坏 ， 还 可 能 存在 其 他 攻击 形式 。 在 规划 安全 功能 
时 容易 忽略 DB-Dos 攻击 。 接 下 来 考虑 另 一 个 威胁 。 






























































9.3.5 SQL 注入 

SQL 注入 是 通过 应 用 程序 输入 注入 数据 库 代 码 (通常 是 SQL) 的 一 类 漏洞 利用 方式 ， 旨 在 
绕 过 安全 防护 ， 在 数据 库 中 执行 非 应 用 程序 预期 的 代码 。SQL 注入 可 以 利用 缓冲 区 注 出 漏 
洞 关闭 数据 库 、 执 行 DB-DoS， 或 者 在 数据 库 甚 至 操作 系统 级 别提 升 用 户 权限 。 

SQL 注入 的 另 一 个 攻击 媒介 是 数据 库 中 存储 的 代码 ， 此 类 代码 (例如 存储 过 程 ) 通常 可 以 
在 提升 权限 的 情况 下 执行 任意 语句 。 内 部 用 户 或 设法 通过 凭证 猜测 或 嗅 探 获 得 访问 权限 的 
人 人， 都 可 以 利用 此 漏洞 。 

















通过 UNION 语句 ， 还 可 以 利用 SQL 注入 来 访问 数据 ， 从 而 从 其 他 表 中 获取 与 查询 表 具 有 相 
同 列 数 的 数据 集 。 例 如 搜索 表单 查询 具有 5 列 的 表 ， 则 在 表单 中 注入 UNION 语句 可 以 将 结 
果 集 添加 到 任何 具有 5 列 的 表 中 ， 这 样 无 须 利 用 漏洞 便 能 轻易 穷 取 数据 。 








1. 缓解 
要 在 应 用 程序 层 减 轻 SQL 注入 的 影响 ， 首 先 要 对 软件 工程 团队 进行 培训 。 编 码 时 ， 软 件 工 
程 师 必须 避免 动态 查询 ， 并 且 必 须 防 止 恶 意 SQL 输入 修改 查询 语句 。 

















2. 预 编译 语句 

第 一 步 是 确保 工程 师 使 用 预 编译 语句 。 预 编译 语句 也 称 参数 化 语句 。 在 预 编 译 语句 中 ， 查 询 
的 结构 是 预先 定义 的 。 然 后 将 表单 输入 与 查询 语句 中 的 变量 绑 定 ， 与 之 相反 的 是 在 运行 时 动 
态 定义 和 构建 SQL。 预 编译 语句 比较 安全 ， 因 为 恶意 者 无 法 修改 查询 逻辑 。 如 果 发 生 SQL 注 
入 ， 则 将 注入 的 SQL 用 作 上 比较、 排序 或 过 滤 的 字符 串 ， 而 不 是 将 其 视 为 单独 的 SQL 语句 。 


示例 9-1 Java 中 使 用 预 编译 语句 的 示例 


String hostname = request.getParameter("hostName"); 




















String query = "SELECT ip, os FROM servers WHERE host_name = ? " 


PreparedStatement pstmt = connection.prepareStatement( query ); 
pstmt.setString( 1, hostName); 
ResultSet results = pstmt.executeQuery( ); 


3. 输入 验证 

有 了 时 预 编译 语句 起 不 到 保护 作用 。 动 态 表 名 称 或 输入 是 不 能 预 编译 的 ， 这 时 就 需要 针对 要 
保护 的 目标 来 验证 输入 。 在 这 种 情况 下 ， 应 用 程序 通过 定义 好 的 列表 ， 检 查 表 名 、Desc 和 
Asc 关键 字 的 有 效 性 ， 以 便 确 定 查 询 能 否 安全 地 执行 。 还 可 以 验证 (美国 ) 邮政 编码 为 5 
个 整数 、 字 符 串 没有 空格 ， 并 且 长 度 在 特定 范围 内 。 


4. 减少 损害 

在 预防 措施 无 法 保护 应 用 程序 输入 的 情况 下 ， 还 可 以 在 应 用 程序 外 部 采取 其 他 缓解 措施 ， 
以 减轻 SQL 广 入 的 影响 。 由 于 无 法 保证 不 会 发 生 SQL 注入 ， 因 此 最 好 建 并 深度 防御 机 制 ， 
这 包括 给 数据 库 二 进 制 文件 打 补 丁 ， 以 减少 可 能 被 利用 的 漏洞 ， 消 除 不 必要 的 存储 代码 以 
及 (应 用 程序 使 用 的 ) 数据 库 用 户 的 不 必要 特权 也 很 重要 。 此 外 ， 为 每 个 应 用 程序 分 别 指 
定数 据 库 用 户 ， 可 以 减轻 账号 遭 劫持 所 造成 的 损害 。 


























5. 监控 

类 似 于 其 他 故障 或 功能 异常 ， 测 量 和 监控 数据 注入 对 于 降低 风险 至 关 重要 。 确 保 记 录 和 分 
析 转 储 文件 、 栈 追踪 以 及 查询 日 志 模 式 〈 匹 配 联合 查询 、 分 号 和 其 他 指示 SQL 注入 的 字符 
串 ) 也 至 关 重 要 。 





SQL 注入 很 容易 预防 ， 但 是 它 是 利用 数据 库 漏洞 的 常见 方法 之 一 。 对 于 不 断 壮大 的 大 型 软 
件 工程 团队 而 言 ， 持 续 培训 、 协 作 的 平台 以 及 经 信息 安全 团队 和 数据 库 可 靠 性 工程 师 批 准 
的 共享 库 ， 是 保证 安全 性 和 开发 速度 所 必需 的 。 

















9.3.6 ”网 络 和 身份 验证 协议 

恶意 者 有 多 种 方法 利用 各 种 通信 协议 攻击 数据 库 服务 器 。 如 果 网 络 协议 中 存在 漏洞 ， 利 用 
该 漏洞 可 能 会 直接 获得 服务 器 的 访问 权限 。 曾 有 人 通过 “hello” 漏 洞 (CAN-2002-1123) 
实施 过 攻击 ， 该 攻击 利用 了 会 话 设置 代码 中 的 漏洞 。 在 通过 网 络 验证 身份 之 后 ， 也 可 能 利 
用 漏洞 来 获得 操作 系统 或 数据 库 访 问 权限 或 提升 权限 。 同 样 ， 数 据 库 协 议 可 能 遍布 漏洞 。 
实际 上 ,一 些 服务 器 允许 进行 未 加 密 的 通信 ， 这 可 能 导致 凭证 被 盗用 。 有 时， 漏洞 可 能 
致 在 没有 凭证 的 情况 下 发 送 身份 验证 信号 。 


9.3 市 开头 讨论 的 缓解 技术 ， 有 助 于 减少 数据 库 基 础 设施 中 的 攻击 媒介 。 使 用 这 些 技术 ， 
并 让 工程 组 织 深 入 了 解 身份 验证 协议 和 数据 库 功能 ， 可 以 确保 配置 尽 可 能 安全 。 























潜在 的 攻击 媒介 及 其 缓解 策略 已 概述 完毕 ， 下 面 讨 论 在 发 生 入 侵 、 权 限 提 升 之 后 ， 其 至 数 
据 库 和 服务 器 的 完全 访问 权限 已 被 获取 的 情况 下 如 何 保护 数据 。 这 就 引出 了 加 密 。 


9.4 ”数据 加 密 


在 某 些 情况 下 ， 不 可 避免 地 会 有 恶意 者 、 悄 无 声息 的 侵入 者 其 至 是 无 心 的 问 入 者 ， 可 以 访 
问 本 不 该 访问 的 数据 。 即 便 已 经 锁定 了 所 有 已 知 网 络 和 操作 系统 路 径 ， 尽 量 限 制 了 每 个 用 
户 的 访问 权限 ， 修 复 了 所 有 已 知 的 漏洞 ， 并 封 塔 了 所 有 可 能 被 利用 的 应 用 程序 漏洞 ， 仍 需 
要 为 不 可 避免 的 情况 做 准备 。 


加 密 是 使 用 一 组 商定 的 密 钥 转换 数据 的 过 程 。 从 理论 上 讲 ， 只 有 拥有 密 钥 的 人 才能 将 加 密 
数据 解密 为 可 用 格式 。 加 密 通 常 是 数据 防御 的 最 后 一 种 形式 ， 即 使 数据 已 被 盗 ， 落 入 恶意 
者 手中 。 


下 面 从 3 个 层次 讨论 加 密 : 


。 传输 中 的 数据 ， 
。 数据 库 系 统 中 的 静态 数据 ， 
。 文件 系统 中 的 静态 数据 。 


这 些 都 是 潜在 的 攻击 媒介 ， 可 以 通过 加 密 来 保护 。 但 是 ， 这 些 加 密 方法 增加 了 开销 和 成 
本 ， 大 多 数组 织 需 要 谨慎 考虑 和 权衡 。 


在 每 一 层 中 ， 必 须 考 虑 数据 的 男 一 个 维度 一 一 数据 类 型 。 数 据 有 是 否 敏感 之 分 ， 稍 后 将 按 
照 敏感 性 将 数据 分 类 。 如 果 要 存储 和 管理 此 类 数据 ， 数 据 库 可 靠 性 工程 师 团队 应 与 信息 安 
全 团队 和 软件 工程 师 团 队 紧 密 合 作 ， 以 确保 各 方 都 了 解 义 务 和 标准 ， 并 且 构 建 的 自助 服务 
平台 、 库 和 监控 符合 这 些 规定 。 数 据 有 不 同 的 形式 ， 下 面 介绍 一 些 常 见 的 、 可 管理 的 合 规 
数据 形式 。 


















































9.4.1 财务 数据 

这 包括 账号 和 相关 的 能 用 于 身份 验证 和 识别 的 数据 ， 交 易 历 史 数据 ， 以 及 可 以 揭示 个 人 
或 组 织 的 财务 状况 的 数据 ， 例 如 信用 评分 、 财 务 报 告 和 余额 等 。 在 美国 ， 财 务 数据 受到 
众多 法 律 、 机 构 和 标准 的 监管 ， 包 括 关 于 信用 卡 数据 的 PCI DSS、GLBA、SOX/J-SOX、 
NCUA、 数 据 隐 私 和 数据 驻 留 法 以 及 《爱国 者 法 案 》。 其 他 国家 也 有 类 似 的 监管 主体 。 


9.4.2 个 人 健康 数据 

有 关 患 者 及 其 健康 状况 的 信息 届 于 此 类 别 。 它 包括 个 人 身份 信息 ， 例 如 社保 号 、 姓 名 和 联 
系 信 息 ， 以 及 有 关 患 者 健康 状况 、 治 疗 过 程 的 数据 以 及 保险 信息 。 美 国 的 健康 数据 主要 受 
1996 年 的 HIPAA 法 案 监 管 。 























9.4.3 个 人 隐私 数据 
通常 称 为 个 人 身份 信息 。 它 包括 社保 号 、 地 址 、 电 话 号 码 和 电子 邮件 。 此 类 信息 泄露 可 能 
导致 身份 盗用 和 骚扰 。1974 年 的 《隐私 法 》 是 美国 目前 针对 这 些 数据 制定 的 标准 的 基础 。 


9.4.4 军事 数据 或 政府 数据 
任何 与 政府 运作 或 人 员 有 关 的 数据 ， 都 被 视 作 非常 敏感 的 ， 有 关 军 事 行 动 和 人 员 的 信息 更 
是 如 此 。 对 于 任何 支持 和 存储 此 类 数据 的 组 织 ， 都 有 非常 严格 的 监管 流程 。 


9.4.5 ”机 密 或 敏感 的 业务 数据 
这 包括 必须 保密 以 保护 企业 竞争 力 的 任何 数据 ， 例 如 知识 产权 、 商 业 机 密 、 财 务 和 绩效 / 
活动 报告 、 用 户 信 息 和 销售 信息 。 


了 解 各 个 数据 存储 中 数据 的 性 质 ， 对 于 为 加 密 和 保护 做 出 适当 的 决策 至 关 重要 ， 这 也 是 组 
组 协作 和 培训 之 所 以 重要 的 原因 。 否 则 ， 在 快速 发 展 的 组 织 中 ， 不 知情 的 工程 师 很 容易 将 
敏感 数据 存 入 尚未 被 保护 的 数据 存储 中 。 


应 该 遵守 一 些 基 本 准则 。 虽 是 老生 常 谈 ， 但 前 述 MongoDB 采用 默认 值 的 案例 体现 了 提醒 
的 重要 性 。 


。 直接 与 数据 库 交 互 的 Web 管理 界面 ， 应 始终 使 用 SSL 或 安全 代理 服务 。 本 书 使 用 SSL 
旨 代 两 种 协议 。TLS (安全 传输 层 协 议 ) 是 SSL 3.0 的 后 续 版 本 ， 大 多 数 人 将 两 者 都 称 
为 SSL。TLS 1.0 存在 安全 漏洞 ， 不 够 安全 '。 
。 应 该 使 用 SSH2 或 RDP (remote desk protocol， 远 程 桌面 协议 ) 连接 服务 器 。 






































注 1: 参见 “Differences between SSL and TLS Protocol Versions ”。 
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与 数据 库 的 管理 连接 应 使 用 单独 的 管理 网 络 ， 并 且 如 果 数 据 库 支持 ， 应 使 用 TLS 1.1 或 
TLS 1.2。 

。 所 有 SSL 协议 都 应 使 用 适当 强度 的 加 密 密 钥 。 会 话 的 加 密 强 度 取决 于 服务 器 和 客户 端 
之 间 协 商 的 密 钥 。 


首先 介绍 传输 中 的 数据 的 加 密 。 


9.4.6 ”传输 中 的 数据 

数据 肯定 会 在 网 络 中 传输 。 对 于 希望 保护 数据 的 数据 库 可 靠 性 工程 师 而 言 ， 这 是 不 可 避免 
的 事实 。 就 像 金 钱 或 贵重 物品 必须 用 装甲 车 运输 ， 数 据 也 需要 安全 传输 。 传 输 是 非常 脆弱 
的 环节 ， 根 据 传 输 过 程 中 的 位 置 ， 这 种 脆弱 性 会 放大 。 


在 深入 研究 之 前 ， 数 据 库 可 靠 性 工程 师 必须 了 解 加密 套 件 的 各 种 组 件 以 及 最 佳 实践 。 

1. 加 密 套件 剖析 

每 个 数据 库 服 务 器 将 通过 协商 好 的 加 密 套 件 与 客户 端 通信 。 重 要 的 是 理解 特定 数据 库 加 密 
套件 的 含义 ， 以 确保 根据 所 需 的 安全 级 别 保护 数据 。 信 息 安 全 团队 应 该 制定 标准 ， 如 果 这 
是 你 的 责任 ， 那 么 你 需要 理解 特定 数据 库 实现 的 含义 。 以 下 是 加 密 套 件 的 一 个 例子 : 









































ECDHE-ECDSA-AES128-GCM- SHA256 








该 套件 的 第 1 部 分 ECDHE 是 密 钥 交 换算 法 。 这 个 例子 采用 了 临时 密 钥 进 行 密 钥 交换 一 一 椭 
圆 曲 线 版 本 (elliptic curve version) ， 还 可 以 采用 RSA、DH 和 DHE。 人 临时 密 钥 交换 基于 
Diffie-Hellman ,并 且 在 TLS 初始 担 手 期 间 ， 每 个 会 话 使 用 一 个 临时 密 钥 。 这 种 方式 提供 了 
PFS (perfect forward secrecy， 完 美的 前 向 保密 )， 这 意味 着 服务 器 长 期 签名 密 钥 的 妥协 不 
会 对 过 去 会 话 的 机 密 性 造成 损害 。 当 需要 使 用 临时 密 钥 时 ， 服 务 器 会 使 用 长 期 密 钥 〈 证 书 
中 的 密 钥 ) 来 签署 临时 密 钥 *。 普 人 遍 认 为 DHE 比 EDHE 的 安全 性 更 高 ， 应 该 优先 使 用 。 








第 2 部 分 ECDDSA 是 签名 算法 ， 对 密 钥 交换 参数 进行 签名 。 这 里 ，RSA 优 于 DSA 和 DSS， 
签名 灼 不 同 可 能 导致 后 者 非常 弱 。 


AES128 指 的 是 套件 中 使 用 的 加 密 算法 ， 在 本 例 中 是 具有 128 位 密 钥 的 AES (advanced encryption 
standard， 高 级 加 密 标准 )。 然 后 是 加 密 的 操作 模式 ， 在 本 例 中 是 GCM (Galois/Counter 模 
式 )， 提 供 经 过 验证 的 加 密 。GCM 只 支持 AES、Camellia 和 Aria， 因 此 这 些 加 密 方式 更 理 
想 。 对 于 AES， 美 国 国家 标准 与 技术 研究 所 (NIST) 提供 了 3 种 选择 ， 每 种 选择 的 块 大 小 
为 128 位 ， 但 密 钥 长 度 不 同 ， 分 别 为 128 位 、192 位 和 256 位 。 


























注 2: Whitfield Diffie, Martin E. Hellman. New Directions in Cryptography. 
注 3: 参见 “Transport Layer Protection Cheat Sheet”。 








最 后 ，SHA256 是 MAC (message authentication code， 消 息 鉴别 码 ) 的 函数 e。SHA256 
是 验证 机 构 用 于 签署 证 书 以 及 CRL (certificates revocation list， 证 书 撤销 列表 ) 的 散 
列 MAC (HMAC) 函数 。 我 们 使 用 该 算法 创建 主 secret， 消 息 的 接收 者 以 此 验证 内 容 
是 否 正确 。 一 端 发 送 消 息 ， 并 从 男 一 端 接收 和 验证 消息 之 后 ， 就 可 以 开始 收发 应 用 程 
序 的 数据 了 。SHA-2 是 该 算法 的 首选 实现 ， 它 包括 4 种 散 列 函 数 : SHA224、SHA256、 
SHA384 和 SHA512。 





评估 数据 库 的 SSL 实现 时 ， 理 解 加 密 算 法 的 列表 顺序 非常 重要 ， 因 为 该 列表 决定 了 寻找 客 
户 端 和 服务 器 都 可 用 的 加 密 算法 时 扫描 的 顺序 。 
评估 加 密 通 信 的 需求 时 ， 不 仅 要 考虑 先前 讨论 的 数据 类 型 ， 还 要 考虑 传输 路 径 和 边界 ， 具 
体 分 为 : 

内 网 通信 ， 
。 外 网 通信 。 

















网 络 传输 的 每 个 方面 都 需要 考虑 并 需要 做 出 一 系列 假设 ， 其 中 每 个 假设 都 有 一 组 需求 ， 每 
个 需求 都 需要 相应 的 实现 。 


2. 内 网 通信 

安全 子 网 中 的 通信 通常 假定 网 络 层 是 安全 的 ， 因 此 无 须 进 一 步 保护 通信 通道 〈 网 络 连 接 本 
身 )。 这 意味 着 在 安全 的 网 络 环境 中 ， 应 用 程序 服务 器 请 求 或 发 送 数 据 、 服 务 器 之 间 的 数 
据 复制 以 及 其 他 网 络 通信 ， 不 需要 对 通信 进行 加 密 。 这 样 很 好 ， 因 为 数据 库 大 多 数 时 候 属 
于 这 种 情况 ， 而 且 加 密 是 CPU 密集 型 操作 。 话 虽 如 此 ， 如 果 数 据 库 存储 敏感 数据 ， 仍 需 
要 以 某 种 方式 加 密 ， 理 想 的 做 法 是 把 数据 存 和 人 数据库 时 在 应 用 程序 层 进行 加 密 。 稍 后 讨论 
静态 数据 时 会 进一步 讨论 这 个 问题 。 
如 果 数 据 库 中 的 敏感 数据 由 于 遗留 问题 或 其 他 限制 而 无 法 保证 安全 ， 应 该 考虑 加 密 所 有 数 
据 库 连接 。 


3. 外 网 通信 
在 组 织 的 两 个 网 络 ， 或 组 织 的 网 络 与 互联 网 之 间 进 行 通信 ， 必 须 使 用 采用 IPSec 或 SSL 的 
VPN (virtual private network， 虚 拟 专 用 网 络 ) ， 无 论 传输 的 数据 是 否 敏感 。 












































类 似 地 ， 对 于 大 多 数 通信 而 言 ， 客 户 端 应 该 通过 SSL/TLS 与 负载 均衡 通信 。 这 样 做 确实 增 
加 了 客户 端 和 负载 均衡 的 CPU 开销 ， 但 是 客户 端 与 服务 器 之 间 极 少 以 明文 方式 传输 数据 。 


了 解 了 SSL 的 需求 之 后 ， 下 面 看 看 实现 这 一 目标 可 供 选 用 的 架构 。 


4. 建立 安全 的 数据 连接 
现代 数据 库 系 统 通常 在 一 定 程度 上 支持 SSL， 但 也 有 例外 ， 比 如 Redis。 确 定数 据 存储 是 
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否 满 足 需求 时 ， 验 证 这 一 点 非常 重要 。 不 应 该 缓存 未 加 密 的 敏感 数据 。 


需要 指出 的 是 ， 相 比 传言 ，SSL 开销 通常 非常 小 。 大 部 分 计算 开销 产生 在 启动 连接 时 ， 很 
少 会 超过 2% 的 CPU 开销 或 增加 5 ms 的 延迟 “。 一 些 加 密 方式 (比如 AES) 在 大 多 数 现代 
CPU 中 有 内 置 指 令 ， 与 基于 软件 的 加 密 方式 相 比 极 大 地 提高 了 速度 。 


有 一 些 分 层 的 方法 可 用 于 保护 连接 。 


基本 的 连接 加 密 。 在 最 基本 的 层面 上 ， 首 先 配 置 数据 库 服务 器 ， 以 确保 所 有 连接 的 通信 都 
是 安全 的 。 同 时 ， 需 要 创建 由 认证 机 构 签发 的 证 书 ， 该 证 书 用 于 签发 服务 器 公 钥 和 私 铀 ， 
客户 端 也 使 用 相同 的 证 书 来 生成 公 钥 和 私 钥 。 在 客户 端 存 储 密 钥 并 适当 配置 服务 器 的 情况 
下 ， 所 有 连接 都 被 视 作 加 密 的 。 


最 佳 实践 和 常识 表明 ， 密 钥 不 能 存储 在 容易 被 劫持 的 地 方 。 这 意味 着 ， 可 以 使 用 动态 配置 
将 密 钥 直 接 加 载 到 应 用 程序 的 内 存 中 ， 而 不 是 直接 存储 在 客户 端的 文件 系统 中 。 不 过 ， 还 
有 更 好 的 办 法 。 


安全 存储 的 密 钥 。 尽 管 通过 SSL 保护 连接 是 至 关 重 要 的 第 一 步 ， 但 仍然 存在 漏洞 。 毕 竟 ， 
如 果 参 与 者 能 够 获得 对 客户 端 主机 的 访问 权限 ， 就 可 以 利用 使 用 这 些 密 钥 创建 的 连接 来 查 
询 数据 。 使 用 密 钥 管理 基础 设施 安全 服务 ， 比 如 Hashicorp 的 Vault、 亚 马 逊 的 KMS (key 
management service， 密 钥 管 理 服务 ) ， 或 其 他 任何 类 似 的 解决 方案 ， 可 以 将 密 钥 的 存储 和 
管理 与 访问 数据 者 分 离开 来 。 


此 外 ， 用 于 访问 数据 库 的 其 他 信息 (比如 用 户 名 、 密 码 、IP 和 端口 )， 可 以 存储 在 类 似 的 
远程 服务 中 ， 以 确保 文件 系统 中 不 存储 任何 赁 证， 以 防止 在 应 用 程序 上 下 文 之 外 获取 并 使 
用 密 钥 。 


动态 构建 的 数据 库 用 户 。 在 前 两 个 阶段 的 基础 上 ， 自 然 会 采用 相同 的 安全 密码 服务 ( 比 
如 Vault)， 动 态 创建 数据 存储 的 临时 账户 ， 这 允许 应 用 程序 主机 注册 并 请 求 创建 临时 账 
户 。 设 置 只 读 之 类 的 角色 ， 有 助 于 自动 应 用 各 种 权限 ， 而 且 这 些 用 户 的 生命 期 有 限 ， 从 
而 确保 了 任何 可 能 被 劫持 的 访问 只 能 持续 有 限时 间 。 此 外 ， 可 以 将 用 户 映射 到 特定 的 应 
用 程序 主机 上 ， 以 便 审 计 查 询 和 访问 ， 而 这 在 一 组 服务 器 共享 用 户 名 的 环境 中 是 具有 挑 
战 性 的 。 


兼用 SSL 和 VPN 技术 ， 应 该 能 够 根据 存储 数据 的 需求 对 所 有 通信 路 径 加 密 。 此 外 ， 还 可 
以 利用 密码 管理 服务 ， 来 减少 针对 文件 系统 上 配置 文件 和 密 钥 的 攻击 ， 防 止 任何 具有 操作 
系统 特权 的 人 读 取 和 滥用 。 这 就 是 保护 传输 中 的 数据 。 下 面 继 续 讨 论 静态 数据 ， 首 先是 数 
据 库 中 的 数据 。 

































































注 4: 参见 Sascha Wenninger 的 文章 “Why You Shouldn’t be Afraid of SSL Performance ”。 








9.4.7 数据库 中 的 数据 
数据 库 中 的 数据 也 称 “使 用 中 的 数据 *"， 应 用 程序 、 分 析 人 员 和 处 理 流 程 必 须 能 够 访问 这 
些 数据 。 这 意味 着 ， 任 何 加密 解 决 方案 只 能 允许 通过 身份 验证 的 人 访问 数据 ， 同 时 防止 任 
何 恶意 访问 。 如 果 用 户 设法 通过 身份 验证 进入 数据 库 ， 通 常 能 够 读 取 对 应 权限 下 的 数据 。 
潜在 的 攻击 者 可 以 分 为 3 类 : 
。 入 侵 者 ; 

内 部 人 员 ， 


入 管理 员 o 











k 














入 侵 者 访问 数据 库 或 其 服务 器 来 窜 取 有 价值 的 信息 。 内 部 人 员 属 于 受信 任 的 团队 ， 在 数据 
库 或 操作 系统 中 有 相应 权限 ， 可 能 图 谋 获取 超出 其 权限 的 信息 。 管 理 员 是 在 数据 库 或 操作 
系统 中 拥有 管理 级 别 特权 的 人 ， 他 们 利用 这 些 特权 来 获取 有 价值 的 信息 。 


本 节 开 头 列 出 的 许多 数据 需要 进一步 加 密 ， 以 确保 只 有 拥有 特定 权限 的 用 户 才能 读 取 。 下 
面 回 顾 有 用 的 选项 ， 以 及 对 应 的 特性 和 潜在 的 缺陷 。 在 此 提醒 ， 加 密 标准 和 最 佳 实践 与 
SSL 加 密 中 一 致 。 


1. 应 用 程序 级 别 安全 性 

在 对 威胁 建 模 期 间 ， 这 种 方式 将 特定 的 表 或 列 标识 为 需要 加 密 。 应 用 程序 使 用 加 密 库 对 数 
据 进行 加 密 ， 然 后 将 数据 提交 到 存储 系统 ， 之 后 就 像 提交 其 他 任何 字符 串 或 二 进 制 数据 一 
样 提交 数据 。 获 取 数 据 的 方式 也 与 之 类 似 ， 应 用 程序 知道 在 使 用 数据 前 将 其 解密 。 这 种 加 
密 和 解密 可 以 使 用 Bouncy Castle 和 OpenSSL 等 库 完 成 。 


在 应 用 程序 级 别 使 用 库 进行 加 密 ， 提 供 了 数据 库 级 别 的 可 移植 性 ， 即 使 后 端 存 储 发 生变 
化 ， 仍 能 像 以 前 一 样 进行 加 密 和 解密 。 这 样 还 能 控制 加 密 库 。 信 息 安全 团队 可 以 在 VCS 
中 维护 共享 库 ， 供 任何 人 使 用 ， 而 且 不 再 需要 对 这 些 代码 进行 合 规 性 审计 ， 因 为 这 些 代码 
已 在 整个 组 织 内 获得 批准 。 最 后 ， 此 方法 允许 选择 性 加 密 ， 不 加 密 其 他 列 和 表 ， 以 便 索 
引 、 查 询 和 报告 。 


这 种 方法 的 主要 缺点 是 ， 它 并 不 是 应 用 于 数据 库 中 所 有 数据 的 一 劳 永 逸 的 方案 。 因 此 ， 当 
对 新 数据 建 模 并 将 其 添加 到 应 用 程序 时 ， 开 发 人 员 必 须 考虑 是 否 对 新 数据 加 密 ， 然 后 才能 
着 手 实现 。 这 种 方法 还 要 求 数据 流水 线 中 其 他 所 有 客户 端 在 读 取 这 些 数据 时 进行 解密 。 

应 用 程序 级 加 密 以 牺牲 开发 速度 为 代价 换取 了 最 大 的 灵活 性 。 

2. 数据 库 加 密 插件 


加 密 插件 是 安装 在 数据 库 中 的 加 密 工具 。 此 方法 独立 于 应 用 程序 ， 编 写 相 应 代码 的 工作 较 
少 。 根 据 插件 的 不 同 ， 列 级 别 的 选择 性 加 密 、 访 问 控 制 和 审计 通常 是 其 特性 。 
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通常 不 建议 使 用 同一 个 密 钥 对 数据 库 进 行 加 密 ， 因 为 用 户 可 能 会 利用 漏洞 获得 更 高 的 访问 
权限 以 读 取 更 多 数据 。 例 如 具有 加 密 密 钥 访问 权限 的 内 部 用 户 ， 可 以 获得 更 高 级 别 的 用 户 
访问 权限 ， 并 访问 其 安全 组 之 外 的 数据 。 使 用 不 同 密 钥 对 不 同安 全 组 的 表 进 行 加 密 ， 可 以 
确保 用 户 只 能 解密 其 安全 组 中 的 对 象 。 这 意味 着 ,任何 加 密 插件 都 应 该 具有 选择 性 加 密 和 
访问 控制 功能 ， 这 样 才 是 有 效 的 。 


与 应 用 程序 级 加 密 不 同 ， 加 密 插件 确实 会 导致 数据 库 之 间 的 可 移植 性 问题 。 因 此 ， 如 有 果 你 
在 初创 公司 或 需求 经 常 变 化 的 环境 中 工作 ， 这 种 解决 方案 可 能 过 于 僵化 。 


3. 透明 的 数据 库 加 密 
有 一 些 安全 设备 会 加 密 / 解密 所 有 数据 库 通 信 。 这 种 方法 相对 简单 ， 易 于 确保 数据 被 加 密 ， 
但 对 所 有 数据 加 密 无 疑 会 增加 开销 。 话 虽 如 此 ， 通 用 的 底层 方法 可 使 开销 最 小 化 。 


4. 查询 性 能 考量 

尽管 加 密 数据 很 简单 ， 但 数据 的 查询 效率 可 能 低下 ， 并 且 会 影响 schema 和 查询 的 设计 。 
列 或 表 级 别 的 数据 加 密 不 易 支 持 范 围 查 询 或 字符 串 搜 索 。 因 此 ， 此 类 查询 必须 考虑 如 何 对 
数据 进行 过 滤 和 排序 。 


大 多 数 加 密 功 能 没有 保留 顺序 ， 因 此 不 能 使 用 B-Tree 索引 。B-Tree 索引 是 对 加 密 数 据 
创建 索引 的 标准 方式 ， 通常 使 用 未 加 密 的 字段 以 支持 高 效 过 污 。 例 如 可 以 使 用 日 期 范 
围 过 滤 来 减少 扫描 加 密 值 所 需 的 数据 集 。 为 了 更 有 效 地 支持 加 密 数据 的 查询 ， 可 以 在 
schema 中 存储 加 密 字段 的 HMAC， 并 且 为 散 列 函数 提供 key。 后 续 的 数据 查询 将 使 用 
HMAC， 因 而 受 保护 的 字段 不 会 以 明文 形式 出 现在 查询 中 。 这 样 ， 就 可 以 查询 数据 库 中 
的 加 密 数据 ， 而 无 须 在 查询 中 携带 明文 敏感 信息 ， 还 可 以 防止 没有 创建 HMAC 所 需 数据 
的 用 户 操作 数据 库 中 的 数据 。 


使 用 散 列 字段 上 的 索引 可 以 获得 同等 性 能 ， 但 会 暴露 有 关 索 引 值 的 频率 和 基数 信息 。 类 似 
地 ， 攻 击 者 可 以 通过 其 在 索引 中 的 位 置 来 推断 有 关 加 密 值 的 信息 ， 甚 至 可 以 搜索 散 列 的 出 
现 次 数 。 其 至 可 以 通过 长 时 间 的 访问 来 研究 和 分 析 数 值 随时 间 的 变化 规律 ， 以 此 获取 数据 
相关 信息 。 例 如 在 插入 数据 之 后 ， 和 掌握 相关 知识 的 人 可 以 通过 事件 和 索引 中 的 位 置 来 推断 
法 在 值 。 


因此 ， 可 以 根据 数据 的 值 添加 干扰 技术 ， 以 减少 攻击 者 通过 散 列 、 散 列 之 间 的 关系 以 及 新 
插入 的 值 来 推断 关联 或 值 的 可 能 。 这 种 手段 包括 在 每 个 插入 中 添加 伪 数 据 ， 或 分 批 插 入 以 
防止 对 原子 插入 进行 增 量 观察 。 

























































































尽管 这 是 对 性 能 和 安全 性 考量 的 高 层 概述 ， 但 很 重要 的 一 点 是 ， 要 提出 这 些 问题 和 一 些 缓 
解 措施 ， 以 便 在 计划 阶段 将 数据 库 加 密 视 为 要 事 。 





注 5: Erez Shmueli, Ronen Waisenberg, Yuval Elovici, et al. Designing Secure Indexes for Encrypted Databases. 








数据 库 中 存储 的 数据 最 终 位 于 文件 系统 上 。 日 志 、 数 据 转 储 和 备份 也 都 存 于 文件 系统 上 ， 
保护 数据 时 必须 考虑 这 些 问 题 。 因 此 下 面 讨论 文件 系统 级 别 的 静态 数据 加 密 。 


9.4.8 文件 系统 中 的 数据 

通过 加 密 传输 中 的 数据 和 使 用 中 的 数据 ， 提 供 了 严密 的 保护 ， 但 攻击 者 仍 有 可 能 直接 从 磁 
盘 、 磁 带 或 其 他 介质 访问 数据 。 像 其 他 应 对 技术 一 样 ， 该 问题 也 有 多 种 解决 方案 。 在 考虑 
解决 方案 时 ， 重 要 的 是 要 考虑 数据 量 、CPU、 读 写 对 延迟 的 影响 以 及 访问 数据 的 频率 。 


对 于 文件 系统 中 的 数据 ， 攻 击 者 可 能 采用 直接 攻击 策略 或 间接 攻击 策略 。 在 直接 攻击 中 ， 
攻击 者 直接 从 数据 库 软 件 外 部 访问 数据 库 文件 ， 通 过 网 络 从 废弃 的 存储 设备 或 从 备份 设施 
中 获取 数据 。 在 间接 攻击 中 ， 攻 击 者 可 以 从 数据 库 使 用 的 文件 中 获取 schema 信息 、 日 志 
数据 和 元 数据 。 

除了 标准 的 网 络 和 访问 控制 策略 ， 还 需要 对 文件 系统 数据 进行 加 密 ， 以 确保 即使 有 人 绕 过 
这 些 步 又 ， 也 无 法 访问 重要 数据 。 考 虑 存储 加 密 时 ， 必 须 考 虑 多 层 ， 这 些 数 据 是 存储 在 文 
件 系 统 和 设备 上 的 。 


1. 文件 系统 上 的 数据 加 密 
当 数据 存放 在 文件 系统 中 时 ， 可 以 自动 对 其 进行 加 密 ， 这 种 方式 与 9.4.7 市 讨论 的 类 似 。 
这 通常 适用 于 保存 在 文件 系统 中 的 数据 ， 例 如 备份 或 数据 转 储 文件 。 通 过 对 这 一 层 加 密 ， 
我 们 始终 可 以 了 解 关 键 文件 的 加 密 状 态 。 


此 外 ， 数 据 可 以 分 为 多 块 ， 存 储 在 多 个 存储 设备 上 。 对 于 敏感 数据 备份 和 大 型 数据 转 储 ， 
这 是 很 好 的 选择 ， 因 为 可 以 防止 访问 一 个 存储 设备 的 人 获取 完整 数据 集 。 这 种 方式 还 可 以 
使 读 写 操作 并 行 化 ， 从 而 更 快 地 恢复 ;但 这 种 方案 会 增加 额外 的 开发 和 维护 成 本 ， 因 而 需 
要 整体 考虑 。 


2. 文件 系统 加 密 

因为 大 多 数 数据 存储 系统 会 为 元 数据 、 日 志和 数据 存储 创建 单独 的 文件 ， 所 以 必须 在 文件 
系统 层 提 供 加 密 功 能 。 可 以 在 文件 系统 之 上 县 加 加 密 文 件 系 统 ， 直 接 在 文件 系统 中 通过 内 
置 加 密 机 制 进行 加 密 ， 或 在 文件 系统 之 下 的 磁盘 块 进行 加 密 。 


































































































将 加 密 文件 系统 登 加 到 现 有 文件 系统 之 上 后 ， 就 可 以 使 用 任何 文件 系统 。 这 是 一 个 非常 灵 
活 的 选项 ， 因 为 可 以 将 其 用 于 特定 目录 ， 而 不 是 对 整个 卷 进行 加 密 。Linux 的 此 类 系统 包 
括 eCryptfs 和 EncF， 这 些 系 统 要 求 手 动 或 通过 KMI (key management interface， 密 钥 管 理 
接口 ) 提供 密 钥 。 许 多 文件 系统 (例如 ZFS 和 BTRFS) 也 具有 加 密 选 项 ， 但 需要 检查 它 
们 是 否 暴露 了 未 加 密 的 元 数据 。 











块 级 别 加 密 系统 在 文件 系统 之 下 运行 ， 一 次 加 密 一 个 磁盘 块 。 在 Linux 中 ， 有 Loop-AES、 
dm-crypt 和 Vera， 这 些 工具 都 使 用 内 核 空间 设备 驱动 程序 ， 并 且 在 文件 系统 层 之 下 运行 。 
如 果 想 对 写 人 卷 的 所 有 数据 都 进行 加 密 ， 而 不 管 数据 存储 在 哪个 目录 中 ， 这 些 工 具 很 有 用 。 

















这 些 解决 方案 都 会 影响 性 能 ， 必 须 做 出 权衡 。 将 日 志 、 元 数据 和 其 他 类 似 文件 存储 在 加 密 
的 文件 系统 上 是 有 意义 的 。 但 是 ， 如 何 从 数据 库 访问 数据 文件 呢 ? 许多 用 户 发 现 应 用 程序 
级 或 列 级 加 密 为 数据 库 提供 了 必要 的 安全 。 由 于 性 能 原因 ， 数 据 库 文件 本 身 保持 未 加 密 状 
态 。 将 此 解决 方案 与 日 志 、 元 数据 文件 和 其 他 系统 级 文件 的 加 密 相 结 合 ， 可 以 创建 有 效 的 
多 层 解决 方案 ,并且 无 损 性 能 。 





3. 设备 级 加 密 
还 可 以 使 用 内 置 加 密 功 能 的 存储 介质 。 鉴 于 存在 许多 已 知 的 漏洞 ， 并 且 会 增加 存储 成 本 ， 
其 价值 存疑 。 这 里 的 要 点 是 ， 这 一 层 肯 定 会 为 数据 安全 性 增加 防御 深度 。 














如 前 所 述 ， 数 据 加 密 在 设计 、 实 施 和 审核 方面 需要 大 量 工作 。 前 面 讨论 了 加 密 传输 中 的 数 
据 、 数 据 库 中 的 数据 以 及 文件 系统 上 的 静态 数据 。 数 据 加 密 是 安全 的 最 后 堡垒 ， 可 在 访问 
控制 、 代 码 强 化 和 常规 修补 都 失效 时 提供 保护 。 认 识 到 这 一 点 的 重要 性 ， 也 就 认识 到 了 安 
全 性 的 每 一 层 都 是 脆弱 的 ， 因 而 必须 在 每 个 层级 考虑 数据 保护 ， 以 构建 合理 的 保护 强度 。 
在 加 密 过 程 中 ， 无 论处 于 哪个 层级 ， 都 可 以 考虑 以 下 清单 。 


。 是 否 根据 敏感 性 对 所 有 数据 进行 了 分 类 ? 

。 是 否 有 加 密 套件 的 标准 ， 是 否 对 其 进行 了 审核 ， 以 确保 合 规 性 ? 

。 是 否 在 追踪 和 关 广 有 关 漏 洞 的 新 报告 ? 

。 软件 工程 师 、 软 件 可 靠 性 工程 师 、 运 维 人 员 和 数据 库 可 靠 性 工程 师 中 的 新 员工 是 否 了 解 
加 密 库 和 加 密 标准 ? 

。 密 钥 是 否 得 到 了 有 效 管理 ， 包 括 轮换 、 移 除 和 测试 ? 

。 是 否 对 关键 组 件 (包括 日 志 、 备 份 .关键 表 和 数据 库 连 接 ) 定期 进行 了 自动 化 渗透 测试 ? 

像 任 何 自动 测试 和 手动 测试 一 样 ， 重 要 的 是 要 认识 到 无 法 测试 所 有 情况 。 这 就 是 为 什么 

通过 关注 高 风险 和 容易 被 利用 的 特性 ， 可 以 在 连续 的 测试 和 改进 过 程 中 关注 重点 、 划 分 

优先 级 和 及 时 反馈 。 
























































9.5 小结 


本 章 不 仅 深入 探讨 了 数据 库 安全 性 的 层级 ， 而 且 详 细 介绍 了 如 何 成 为 组 织 中 的 安全 官 。 同 
样 ， 数 据 库 可 靠 性 工程 师 不 能 独自 负责 该 任务 。 在 快速 迭代 的 动态 环境 中 ， 数 据 库 管 理 员 
的 想法 根本 行 不 通 ， 因 而 需要 上 升 到 数据 库 可 靠 性 工程 师 的 思维 。 数 据 库 可 靠 性 工程 师 应 
该 与 本 章 提 到 的 每 个 团队 积极 合作 ， 用 自己 丰富 的 知识 来 创建 自助 服务 平台 、 共 享 库 和 团 
队 流 程 。 

















一 如 既往 ， 本 章 努 力 为 运 维 本 身 ， 以 及 为 依赖 数据 库 可 靠 性 工程 师 的 其 他 技术 团队 的 有 效 
协作 与 支持 建立 坚实 的 基础 。 第 10 章 将 重点 介绍 各 种 数据 库 持 久 性 选项 ， 以 及 它们 如 何 
运用 关键 技术 来 提供 弹性 、 扩 展 性 和 高 性 能 的 数据 存储 和 检索 。 届 时 会 不 时 地 提 到 到 目前 
为 止 所 黄 定 的 基础 。 
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为 了 深入 讲解 数据 存储 ， 本 书 大 部 分 篇 幅 在 讨论 运 维 。 不 同 的 数据 存储 之 间 最 重要 的 共同 
点 是 : 存储 数据 。 本 章 将 解释 单个 节点 如 何 存储 数据 、 如 何 分 割 大 型 数据 集 ， 以 及 节点 之 
间 如 何 复制 数据 。 


本 书 着 眼 于 可 靠 性 和 运 维 ， 主 要 介绍 存储 和 访问 模式 ， 以 便 选 择 正确 的 基础 设施 以 及 了 解 
其 性 能 特征 ， 确 保 数据 库 可 靠 性 工程 师 拥 有 足够 的 信息 来 帮助 团队 选择 合适 的 存储 系统 。 
若 想 进行 更 细致 的 研究 ， 建 议 阅读 Martin Kleppmann 的 《数据 密集 型 应 用 系统 设计 》。 


10.1 数据 的 存储 结构 


数据 库 通常 通过 表 和 索引 来 存储 数据 。 表 是 主要 的 存储 机 制 ， 而 索引 是 用 于 加 快 访问 速度 
的 数据 子 集 。 随 着 数据 存储 种 类 的 增多 ， 这 种 情况 发 生 了 显著 变化 。 了 解数 据 存 储 的 读 写 
原理 ， 对 于 配置 和 优化 存储 子 系统 和 数据 库 至 关 重要 。 

在 了 解数 据 库 如 何 存储 数据 时 ， 实 际 上 不 仅 需要 评估 原始 数据 的 存储 方式 ， 还 需要 评估 其 
检索 方式 。 在 大 型 数据 集中 ， 以 合理 的 延 时 访问 特定 数据 子 集 ， 通 常 需要 专门 的 存储 结构 
( 称 为 索引 ) ， 以 加 快 数据 查找 和 检索 。 因 此 ， 在 考虑 将 数据 放 入 磁盘 和 索引 中 的 存储 IO 
需求 时 ， 还 需要 考虑 检索 数据 的 IO 需求 。 


10.1.1 数据库 行 的 存储 
大 部 分 数据 适合 采用 传统 的 关系 型 数据 库 。 下 面 首先 介绍 关系 型 数据 库 ， 然 后 讨论 其 他 一 
些 可 选 的 流行 数据 库 。 在 关系 型 数据 库 中 ， 数 据 存储 在 块 或 页 中 ， 与 磁盘 上 特定 数量 的 字 
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节 对 应 。 不 同 的 数据 库 使 用 不 同 的 术语 。 本 书 使 用 块 代 表 两 者 ， 块 是 存储 记录 的 最 细 粒 
度 。Oracle 数据 库 将 数据 存储 在 数据 块 中 。 国 定 大 小 的 页 称 为 块 ， 就 像 磁盘 上 的 块 一 样 。 
块 是 读 写 数据 的 最 小 单元 。 这 意味 着 ， 如 果 一 行为 1 KB， 块 大 小 为 16 KB， 一 次 读 操作 将 
读 取 16KB 的 数据 。 如 果 数 据 库 的 块 小 于 文件 系统 的 块 ， 那 么 将 浪费 IO ， 如 图 10-1 所 示 。 



































对 齐 的 数据 库 块 /条 带 


| 16KB 块 | | 16KB 块 | | 16KB 块 16KB 块 
{ 32KB 条 带 大 小 32KB 条 带 大 小 


未 对 齐 的 数据 库 块 /条 带 


| 16KB 块 | | 16KB 块 | | 16KB 块 16KB 块 
32KB 条 带 大 小 | 32KB 条 带 大 小 \ 


图 10-1: 对 齐 或 未 对 齐 的 块 /条 带 配置 


块 还 需要 存储 一 些 元 数据 ， 通 常 以 头 部 和 尾部 或 页 脚 的 形式 存储 。 这 包括 磁盘 地 址 信息 、 
该 块 所 属 对 象 的 信息 ， 以 及 块 内 行 和 活动 的 信息 。 在 Oracle 中 ， 从 11g Release 2 版 本 开 
始 ， 块 的 元 数据 总 计 为 84~107 字 节 ， MySQL 5.7 版 本 的 InnoDB 中 ， 元 数据 使 用 46 字 节 。 
此 外 ， 每 一 行 数据 都 需要 自己 的 元 数据 ， 包 括 列 信息 、 行 分 布 的 其 他 块 的 链接 以 及 该 行 的 
唯一 标识 符 '。 


数据 块 通常 组 织 成 一 个 更 大 的 容器 ， 称 为 扩展 区 。 出 于 效率 原因 ， 当 表 空 间 需 要 新 块 时 ， 
扩展 区 通常 是 分 配 单元 。 表 空间 通常 是 最 大 的 数据 结构 ， 映 射 到 一 个 或 多 个 物理 文件 ， 它 
们 可 以 根据 需要 在 磁盘 上 进行 布局 。 在 直接 映射 到 物理 磁盘 的 系统 上 ， 可 以 将 表 空 间 文件 
分 布 在 不 同 磁 盘 上 以 减少 VO 竞争 。 在 本 书 所 关注 的 范例 中 ， 不 一 定 需要 这 种 VO 优化 。 
条 带 化 和 镜像 条 带 化 的 大 型 通用 RAID 结构 可 以 最 大 限度 利用 IO 吞吐 ， 而 无 须 花 费 大 量 
时 间 进 行 微调 。 然 而 ， 假 设 可 以 进行 快速 恢复 和 故障 转移 ， 将 重点 放 在 简单 卷 甚至 临时 存 












































注 1: Jeremy Cole. The physical structure of records in InnoDB. 
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储 上 将 简化 管理 并 减少 开销 。 





1. B-Tree 结构 

大 多 数 数据 库 以 二 又 树 格式 来 构造 数据 ， 也 称 B-Tree。B-Tree 是 一 种 数据 结构 ， 在 保持 数 
据 顺 序 的 同时 进行 自我 平衡 。B-Tree 已 针对 数据 块 的 读 写 进行 了 优化 ， 这 就 是 B-Tree 在 数 
据 库 和 文件 系统 中 很 常用 的 原因 。 


可 以 将 表 或 索引 的 B-Tree 想象 成 自 上 而 下 的 一 棵 树 。 树 有 一 个 根 页 ， 根 页 是 基于 键 所 建立 
的 索引 的 起 始点 ， 键 是 一 列 或 多 列 。 大 多 数 关 系 型 数据 库 中 的 表 按 主键 存储 ， 可 以 显 式 或 
隐 式 地 定义 主键 ， 例 如 主键 可 以 是 一 个 整数 。 如 果 应 用 程序 寻找 特定 ID 或 一 个 ID 范围 对 
应 的 数据 ， 则 可 使 用 该 主键 进行 查找 。 除 了 主键 的 B-Tree， 还 可 以 定义 其 他 列 或 列 集 上 的 
辅助 索引 。 与 原始 的 B-Tree 不 同 ， 这 些 索引 仅 存储 被 索引 的 数据 ， 而 不 存储 整 行 。 这 意味 
着 这 类 索引 要 小 得 多 ， 因 而 更 容易 存储 在 内 存 中 。 


B-Tree 称 为 树 ， 是 因为 当 遍 历 树 时 ， 可 以 从 两 个 或 多 个 子 页 中 获取 所 需 的 数据 。 如 前 所 
述 ， 页 包含 行 数据 和 元 数据 ， 其 中 元 数据 包含 指向 下 方 页 的 指针 ， 这 些 页 称 为 子 页 。 根 页 
下 有 两 个 或 多 个 页 ， 这 些 页 称 为 子 节点 。 子 页 或 节点 可 以 是 内 部 节点 或 叶 节 点 ， 内 部 节点 
存储 基准 键 (pivot key) 和 指向 子 页 的 指针 ， 通 过 指针 可 以 找到 另 一 个 节点 。 叶 节点 包含 
键 数据 。 这 种 结构 创建 了 一 棵 自 平衡 树 ， 并 且 减 少 了 搜索 次 数 ， 仅 进行 几 次 磁盘 搜索 即 可 
找到 所 需 的 数据 行 。 如 有 果 所 需 的 数据 是 键 本 身 ， 甚 至 不 需要 找到 该 行 。 























2. B-Tree 与 入 

将 数据 插入 B-Tree 时 ， 可 以 通过 搜索 找到 正确 的 叶 节点。 创建 节点 时 会 留 有 富余 空间 以 供 
插入 其 他 数据 。 如 果 节 点 有 空间 ， 则 将 数据 按 顺 序 直接 揪 入 节点 中 ， 如 果 节 点 已 满 ， 则 必 
须 进 行 分 裂 。 分 裂 时 ， 确 定 新 的 中 位 数 并 创建 新 的 节点 ， 并 相应 地 重新 分 配 数据 ， 然 后 ， 
将 此 中 间 值 的 数据 插入 父 节 点 ， 这 可 能 导致 进一步 分 裂 ， 直 到 到 达 根 节点 为 止 。 更 新 和 删 
除 也 是 通过 搜索 找到 正确 的 叶 节 点 ， 然 后 进行 更 新 或 删除 。 如 果 更 新 的 数据 多 到 溢出 节 
点 ， 则 可 能 导致 分 裂 ， 删 除 也 可 能 导致 重新 平衡 。 


新 创建 的 数据 库 开 始 时 主要 进行 顺序 读 写 ， 故 延 时 较 低 。 随 着 数据 库 的 增长 ， 分 裂 会 导致 
IO 变 得 随机 ， 读 写 延 时 从 而 变 高 。 所 以 在 测试 过 程 中 必须 采用 真实 数据 集 ， 以 确保 长 期 
运行 时 的 性 能 特征 ， 而 不 是 运行 早期 的 表现 。 


单行 写 入 至 少 需 要 完全 重 写 一 页 ， 如 果 有 分 裂 ， 则 可 能 要 写 入 许多 页 。 这 种 复杂 的 操作 需 
要 原子 性 ， 但 是 如 果 发 生 骨 祺 ， 则 可 能 导致 数据 损坏 和 扳 立 页 。 在 评估 数据 存储 时 ， 需 要 
了 解 采 用 何 种 机 制 以 避免 这 种 情况 。 此 类 机 制 包括 : 


。 在 复杂 的 操作 落 盘 之 前 先 写 操作 日 志 ， 也 称 预 写 日 志 ， 


。 用 于 重建 的 事件 日 志 ， 
。 数据 变更 前 后 的 重 做 日 志 。 
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考虑 到 所 有 这 些 因素 ， 在 配置 数据 库 的 底层 存储 时 ， 关 和 键 的 一 点 是 数据 库 块 的 大 小 。 前 面 
讨论 了 将 数据 库 块 大 小 与 磁盘 块 大 小 对 齐 的 重要 性 ， 但 这 还 不 够 。 如 果 使 用 固态 硬盘 ， 则 
可 能 发 现 较 小 的 块 在 遍历 B-Tree 时 性 能 更 优 。 与 机 械 硬 盘 相 比 ， 在 块 较 大 的 情况 下 ， 固 态 
硬盘 的 延 时 可 能 会 增加 30%~40%。 由 于 B-Tree 结构 需要 读 写 ， 因 此 必须 考虑 到 这 一 点 。 























B-Tree 的 属性 和 优点 总 结 如 下 。 


高 效 的 范围 查询 。 
不 是 单行 查找 最 理想 的 模型 。 

。 键 按 顺 序 存储 ， 以 支持 高 效 的 查找 和 范围 扫描 。 

。 该 结构 可 以 最 大 限度 地 减少 大 型 数据 集 的 页 面 读 取 。 

。 数据 页 中 不 包含 键 ， 删 除 和 插入 非常 高 效 ， 仅 偶尔 需要 分 裂 和 合并 。 
如 有 果 整 个 结构 可 以 放 进 内 存 ， 则 性 能 更 优 。 





给 数据 建立 索引 还 有 其 他 选项 ， 其 中 最 主要 的 是 散 列 索引 。 

如 前 所 述 ，B-Tree 在 关系 型 数据 库 中 非常 普遍 。 如 果 使 用 过 关系 型 数据 库 ， 则 可 能 已 经 接 
触 过 B-Tree 了 ; 但 还 有 其 他 一 些 选项 ， 并 且 这 些 选 项 正 趋 于 成 熟 。 接 下 来 看 看 仅 追 加 日 志 
结构 ”。 


10.1.2 SSTable 和 LSM 树 

BigTable、Cassandra、RocksDB (MongoDB 支持 ，MySQL 中 可 通过 MyRocks 引擎 开启 ) 
和 LevelDB 都 采用 SSTable 作为 主要 存储 。 术 语 SSTable 和 Memtable 最 早出 现在 谷歌 的 论 
文 “Bigtable: A Distributed Storage System for Structured Data” 中 ， 启 发 了 许多 DBMS。 








SSTable 存储 引擎 中 有 许多 文件 ， 每 个 文件 的 内 部 都 是 一 组 有 序 的 键 值 对 。 与 前 面 讨 论 的 块 
存储 不 同 ，SSTable 在 块 或 行 级 别 无 须 元 数据 开销 。 键 及 其 值 对 于 DBMS 是 不 透明 的 ， 并 且 
存储 为 任意 的 BLOB。 由 于 它们 以 有 序 方式 存储 ， 因 此 可 以 顺序 读 取 ， 并 将 其 视 为 排序 所 依 
据 键 上 索引 。 


有 种 算法 可 以 在 SSTable 存储 引擎 中 组 合 内 存 中 的 表 、 批 量 落 盘 和 定期 压缩 ， 该 算法 称 为 
LSM (log-structured merge， 日 志 结 构 合 并 ) 树 架 构 ， 参 见 图 10-2。 





























注 2: Goetz Graefe, Harumi A. Kuno. Modern B-tree techniques, 2011. 
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写 入 磁盘 


memtable 
键 值 对 布 隆 过 滤器 


内 存 上 下 文 
磁盘 上 下 文 


a 压缩 SSTable 














10-2: LSM 树 结 构 和 布 隆 过 滤器 


LSM 树 可 以 定期 将 内 存 中 的 数据 写 入 SSTable。 数 据 刷 新 、 排 序 并 写 入 磁盘 之 后 ， 就 是 不 
可 变 的 。 不 能 添加 或 删除 SSTable 文件 中 的 键 值 对 ， 这 种 机 制 对 于 只 读数 据 集 非 常 有 效 ， 
因为 可 以 将 SSTable 加 载 到 内 存 中 实现 快速 访问 。 即 使 SSTable 不 能 完全 放 入 内 存 ， 也 可 
以 最 大 限度 地 减少 随机 读 取 所 需 的 磁盘 寻 道 。 


为 了 支持 快速 写 信 ， 还 需要 更 多 机 制 。 与 磁盘 写 操作 不 同 ， 内 存 中 数据 集 的 写 操作 很 简 
单 ， 因 为 只 需 更 改 指 针 。 内 存 中 的 表 可 以 在 写 的 同时 保持 平衡 ， 这 称 为 memtable。 读 操作 
首先 查询 memtable， 之 后 读 取 磁 盘 上 最 新 的 SSTable， 然 后 查找 下 一 个 ， 直 到 找到 数据 为 
止 。 达 到 一 定 的 冰 值 〈 可 以 是 时 间 、 事 务 数 或 大 小 ) 后 ， 将 对 memtable 进行 排序 并 将 其 
写 人 磁盘 。 

删除 已 经 存储 在 SSTable 中 的 数据 时 ， 必 须 标 记 为 逻辑 删除 ， 这 称 为 墓碑 。 SSTable 会 定期 
合并 ， 消 除 “墓碑 ”以 节省 空间 。 此 合并 和 整理 过 程 可 能 会 占用 大 量 的 磁盘 WO， 并 且 通 常 
占用 更 多 可 用 空间 。 在 运 维 团 队 习 惯 这 些 新 容量 模型 之 前 ， 这 可 能 会 影响 可 用 性 SLO。 
































在 发 生 故障 时 ， 必 须 假 设 存 数 据 可 能 丢失 。 在 将 memtable 写 入 磁盘 之 前 ， 数 据 是 脆弱 的 。 
考 庸 置疑 ，SSTable 存储 引擎 中 的 解决 方案 与 基于 B-Tree 的 存储 引擎 类 似 ， 包 括 事件 日 志 、 
重 做 日 志和 预 写 日 志 。 
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你 可 能 会 想 ， 必 须 搜索 memtable 和 大 量 的 SSTable 来 查找 不 存在 的 记录 ， 这 样 做 可 能 既 缓 
慢 ， 成 本 又 高 ， 事 实 也 确实 如 此 。 解 决 此 类 问题 的 方案 是 布 隆 过 滤器 。 布 隆 过 滤器 是 一 种 
数据 结构 ， 可 用 于 评估 给 定 集合 中 是 否 存 在 记录 的 键 ， 在 这 种 情况 下 集合 就 是 SSTable。 











像 Cassandra 之 类 的 数据 库 ， 使 用 布 隆 过 滤器 来 判断 哪个 SSTable ( 若 有 ) 可 能 包含 请 
求 的 键 。 布 隆 过 滤器 的 设计 注重 速度 ， 因 此 可 能 会 有 一 些 误 报 ,但 是 总 体 上 大 大 减少 了 
读 取 1O。 相 反 ， 如 果 布 隆 过 滤器 发 现 SSTable 中 不 存在 相应 的 键 ， 则 肯定 不 存在 。 当 
memtable 写 入 磁盘 时 将 更 新 布 隆 过 滤器 。 分 配给 过 滤器 的 内 存 越 多 ， 误 报 的 可 能 性 就 
越 小 。 


























2. 实现 
许多 数据 库 利用 LSM 结构 和 SSTable 作为 存储 引擎 ; 


。 Apache Cassandra 
。 谷歌 Bigtable 

。 HBase 

。 LevelDB 

。 Lucene 

。 Riak 

。 RocksDB 

。 WiredTiger 


每 种 数据 库 的 实现 细节 有 所 不 同 ， 但 此 类 存储 引擎 的 激增 和 日 趋 成 熟 已 使 其 成 为 重要 的 存 
储 实现 方式 ， 任 何 使 用 大 型 数据 集 的 团队 都 应 该 理解 。 

在 查看 和 枚 举 数据 存储 的 结构 时 ， 多 次 提 到 了 日 志 对 于 在 发 生 故障 时 保证 数据 持久 性 的 重 
要 性 。 第 7 章 谈 到 了 日 志 对 于 分 布 式 数据 存储 中 的 数据 复制 也 至 关 重 要 。 下 面 深入 介绍 日 
志 及 其 在 复制 中 的 用 法 。 





10.1.3 索引 


前 面 讨论 了 最 普遍 的 索引 结构 之 一 一 一 B-tree。SSTable 也 有 内 在 索引 ， 当 然 ， 数 据 库 中 也 
存在 其 他 索引 结构 。 


1. 散 列 索引 

最 简单 的 索引 实现 之 一 是 散 列表 。 散 列表 是 存储 桶 的 集合 ， 桶 中 包含 键 的 散 列 函数 的 运算 
结果 ， 该 散 列 指向 可 以 找到 记录 的 位 置 。 因 为 散 列表 的 范围 扫描 成 本 过 高 ， 所 以 仅 适用 于 
单 键 查 找 。 另 外 ， 散 列 必须 放 在 内 存 中 以 确保 高 性 能 。 散 列表 为 所 适用 的 特定 用 例 提供 了 
极 佳 的 访问 性 能 。 
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2. 位 图 索引 

位 图 (bitmap) 索引 将 其 数据 存储 为 位 数组 (位 图 )。 遍 历 位 图 索引 时 通过 按 位 执行 逻辑 
运算 来 完成 。 在 B-tree 索引 中 ， 索 引 在 不 常 重复 的 值 上 表现 最 佳 ， 这 也 称 高 基数 (high 
cardinality) 。 当 索引 的 值 较 少 时 ， 位 图 索引 的 性 能 更 优 。 


3. B-tree 索引 分 类 
传统 的 B-tree 索引 存在 子 分 类 ， 这 些 分 类 通常 是 针对 非常 具体 的 用 例 设计 的 ， 如 下 所 示 。 








口 基于 函数 
索引 基于 函数 的 结果 。 


口 反 向 索引 
从 值 的 末尾 到 开头 构建 索引 ， 以 反 向 排序 。 


口 聚 簇 索引 
要 求 表 中 的 记录 按 索引 顺序 物理 存储 以 优化 IO 访问 。 聚 徐 索 引 的 叶 节 点 包含 数据 页 。 




















口 空间 索引 
有 多 种 机 制 可 用 于 索引 空间 数据 。 标 准 索 引 类 型 无 法 有 效 地 处 理 空间 查询 。 


口 搜索 索引 
此 类 索引 能 够 搜索 列 中 的 数据 子 集 。 大 多 数 索 引 无 法 在 值 内 搜索 ， 但 一 些 索 引 是 为 此 而 
设计 的 ， 并 为 此 操作 构建 了 完整 的 数据 存储 ， 例 如 Elasticsearch。 


每 种 数据 存储 各 有 一 系列 专用 索引 ， 这 些 索引 通常 针对 特定 用 例 做 了 优化 。 


索引 对 于 快速 访问 数据 子 集 至 关 重 要 。 在 评 佑 前 治 数据 存储 时 ， 了 解 索引 方面 的 限制 ， 例 
如 具有 多 个 索引 的 能 力 、 可 以 索引 多 少 列 甚至 后 台 如 何 维护 这 些 索 引 ， 是 至 关 重 要 的 。 


10.1.4 日 志和 数据 库 

日 志 最 初 是 一 种 维护 数据 库 系统 持久 性 的 方法 。 由 于 可 用 性 和 扩展 性 的 原因 ， 日 志 逐 新 演 
变 成 一 种 将 数据 从 主 服务 器 复制 到 从 服务 器 的 机 制 。 最 终 ， 服 务 被 构建 成 通过 转换 层 ， 利 
用 日 志 在 不 同 数据 库 引 擎 之 间 迁 移 数 据 。 随 后 日 志 演 变 为 销 息 传 递 系 统 的 一 部 分 事 
件 ， 订 陪 者 可 以 利用 事件 为 下 游 服 务 做 精细 的 工作 。 


日 志 应 用 广泛 ， 本 章 主 要 关注 复制 。 了 解 了 如 何在 本 地 服务 器 上 存储 数据 和 建立 索引 之 
后 ， 下 面 介 绍 如 何 将 数据 复制 到 其 他 服务 器 上 。 
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10.2 ”数据 复制 


本 书 假设 数据 库 可 靠 性 工程 师 主要 处 理 分 布 式 数据 存储 。 这 意味 着 ， 必 须 把 一 个 节点 上 的 

数据 移动 到 其 他 节点 。 关 于 这 一 主题 "已 有 很 多 书 了 , 因此 本 书 着 重 于 介绍 众所周知 且 实用 

的 示例 ， 而 不 做 理论 性 的 讲解 。 本 书 旨 在 帮助 数据 库 可 靠 性 工程 师 及 其 所 支持 的 工程 师 了 

解 复制 方法 及 其 工作 原理 。 了 解 复制 相关 选项 的 优 缺 点 及 其 模式 和 反 模 式 ， 对 于 数据 库 可 
靠 性 工程 师 、 架 构 师 、 软 件 工程 师 和 运 维 人 员 有 至 关 重 要 。 


复制 架构 有 一 些 高 层次 的 区 别 。 在 讨论 复制 时 ， iodar 指 的 是 从 应 用 程序 中 执行 写 操作 的 
节点 ， 而 follower 是 接收 复制 事件 以 复制 数据 的 节点 ， 读 取 节点 是 应 用 程序 从 中 读 取 数 据 
的 节点 












































口 单 leader 
数据 总 是 发 送 给 特定 的 leader。 


口 多 leader 
多 个 节点 具有 leader 角色 ， 并 且 每 个 leader 都 必须 在 整个 集群 中 持久 化 数据 。 





口 无 leader 
所 有 节点 都 能 进行 写 操作 。 


首先 讨论 最 简单 的 单 leader 复制 ， 并 基于 此 延伸 。 





10.2.1 单 leader 复 制 
在 单 leader 复制 模型 中 ， 所 有 写 操 作 由 单个 leader 完成 并 从 leader 中 复制 数据 。 因 此 ,在 
六 个 节点 中 有 一 个 节点 被 指定 为 lgader， 其 他 节点 都 是 副本 ， 数 据 从 leader 中 拉 取 。 这 种 
方法 因 其 简单 性 而 应 用 广泛 。 这 种 模型 可 以 保证 一 些 特性 ， 包 括 ; 

因为 所 有 写 入 由 单个 节点 完成 ， 所 以 不 会 发 生 一 致 性 冲突 ， 
。 假设 所 有 操作 都 是 确定 性 的 ， 则 可 以 保证 每 个 节点 上 的 结果 都 相同 。 














这 里 包含 一 些 场景 ， 例 如 一 个 leader 复制 到 几 个 副本 时 写 入 才 被 视 作 成 功 。 无 论 如 何 ， 只 
有 一 个 leader 执行 写 操作 ， 这 是 该 架构 的 关键 属性 。 在 单 leader 模型 中 有 几 种 复制 方法 ， 
每 种 方法 都 在 一 定 程度 上 权衡 一 致 性 、 延 迟 和 可 用 性 。 因 此 ， 需 要 根据 应 用 程序 的 需求 以 
及 使 用 数据 库 集群 的 方式 选用 不 同 的 复制 方法 。 


1. 复制 模型 
以 单 leader 方式 复制 数据 时 ， 可 以 使 用 3 种 模型 。 














注 3: Replication Techniques in Distributed Systems, 1996. 
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口 异步 
通过 弱化 持久 性 减少 延迟 。 


口 同步 
通过 增加 延 时 增强 持久 性 。 


口 半 同 步 
延 时 与 持久 性 之 间 的 权衡 。 


在 异步 复制 模型 中 ， 事 务 写 入 leader 的 日 志 ， 然 后 提交 并 写 入 磁盘 ， 有 一 个 单独 的 进程 将 
这 些 日 志 同 步 至 follower，follower 会 尽快 应 用 这 些 日 志 。 在 异步 复制 模型 中 ，leader 和 
follower 的 提交 存在 一 个 很 小 的 时 间 间 际 。 此 外 ， 也 不 能 保证 所 有 follower 的 提交 点 是 相 
同 的 。 在 实践 中 ， 提 交点 之 间 的 时 间 间 隙 可 能 小 到 可 以 忽略 ， 有 的 异步 复制 系统 中 leader 
和 follower 的 间隙 可 能 达到 几 秒 、 几 分 钟 甚至 几 个 小 时 。 











在 同步 复制 模型 中 ， 事 务 被 号 入 leader 的 日 志 ， 同 时 通过 网 络 发 送 给 follower。leader 在 收 
到 follower 确认 写 操作 已 经 被 记录 后 才 会 提交 该 事务 。 这 可 以 保证 集群 中 的 所 有 节点 处 于 
相同 的 提交 点 。 这 意味 着 读 一 致 性 (无 论 从 哪个 节点 读 取 )， 并 且 如 果 当 前 leader 发 生 故 
障 ， 任 何 节 点 都 可 以 成 为 leader， 而 没有 数据 丢失 的 风险 。 但 网 络 延 时 或 布点 性 能 下 降 都 
会 增加 leader 写 操 作 的 延 时 。 


同步 复制 对 延 时 有 明显 影响 ， 在 节点 较 多 的 情况 下 尤其 明显 ， 而 半 同 步 复 制 是 一 种 折 中 方 
案 。 使 用 半 同 步 复 制 算法 ， 只 需要 一 个 节点 向 leader 确认 写 操作 已 被 记录 ， 这 样 在 集群 中 
存在 性 能 下 降 节 点 的 情况 下 ， 降 低 了 延 时 的 风险 ， 同 时 保证 了 集群 中 至 少 有 两 个 节点 的 提 
交点 是 完全 一 致 的 。 在 该 模型 中 ， 如 果 从 任意 节点 读数 据 ， 并 不 能 保证 集群 中 所 有 节点 会 
返回 相同 的 数据 ， 但 能 保证 在 需要 时 ， 至 少 有 一 个 节点 可 以 在 不 造成 数据 丢失 的 情况 下 成 
为 新 leader。 


2. 复制 日 志 格 式 
实现 单 leader 复制 必须 使 用 事务 日 志 。 实 现 这 种 日 志 的 方法 有 很 多 ， 每 种 方法 各 有 长 短 。 
许多 数据 存储 可 能 实现 了 多 种 事务 日 志 ， 以 便 根据 需要 选择 最 有 效 的 方式 。 列 举 如 下 。 


口 基于 语句 的 日 志 
在 基于 语句 的 复制 模式 中 ， 写 操作 对 应 的 SQL 或 语句 被 记录 下 来 ， 并 从 leader 传输 给 


follower。 这 意味 着 每 一 个 follower 都 会 执行 整 条 语句 。 


























其 优点 如 下 。 

。 一 条 SQL 语句 可 以 更 改 成 百 上 千 条 记录 。 传输 这 些 受 影响 的 记录 需要 传输 大 量 数据 ， 
而 SQL 语句 通常 小 很 多 。 对 于 带宽 不 足 的 数据 中 心 之 间 进 行 复 制 而 言 ， 该 方案 可 能 
更 有 效 。 
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。 这 种 方式 易于 移植 。 即 使 在 不 同 版 本 的 数据 库 中 ， 大 部 分 SQL 语句 的 执行 结果 也 
是 相同 的 ， 这 样 就 可 以 在 升级 leader 之 前 先 升级 follower。 这 是 在 生产 环境 升级 时 ， 
保证 高 可 用 性 的 重要 措施 。 如 有 果 没 有 向 后 兼容 的 复制 方式 ， 当 整个 集群 升级 版 本 时 ， 
宕 机 时 间 会 很 长 。 

日 志文 件 还 可 以 用 于 审计 和 数据 集成 ， 因 为 日 志 中 包含 完整 的 语句 。 


其 缺点 如 下 。 








。 如 果 写 入 的 数据 是 在 选 定数 据 集 上 使 用 聚合 函数 或 计算 函数 算出 的 ， 则 处 理 时 间 可 
能 很 长 。 执 行 该 语句 比 简单 地 修改 磁盘 上 的 记录 更 耗 时 ， 可 能 会 因 串 行 apply 过 程 
而 导致 复制 延迟 。 
有 些 语句 的 执行 结果 并 不 确定 ， 在 不 同市 点 上 执行 时 ， 结 果 可 能 不 同 。 











MySQL 基于 语句 的 复制 就 是 这 种 方式 的 一 个 例子 。 





确定 性 事务 
确定 性 意味 着 一 条 语 负 的 执行 结果 与 时 间 无 关 ， 并 且 不 受 外 部 因素 影响 。 如 果 一 条 语 
多 在 相同 的 数据 集 上 以 相同 的 顺序 执行 ， 那 么 无 论 在 哪个 节点 上 执行 ， 结 果 都 应 该 相 
同 。 非 确定 性 语 向 的 例子 包括 本 地 时 间 相 关 函 数 ， 比 如 now()、sysdate() 或 随机 排 
序 ， 例 如 根据 rand() 返回 值 进 行 排序 。 


类 似 地 ， 存 储 代码 〈 比 如 自 定义 函数 、 存 储 过 程 和 和 触发 器 ) 可 能 会 使 得 语句 的 执行 结 
果 变 得 不 确定 ， 从 而 导致 基于 语 负 的 复制 模式 不 安全 。 











口 预 写 日 志 
预 写 日 志 也 称 重 做 日 志 ， 包 含 一 系列 事件 ， 每 个 事件 对 应 一 个 事务 或 者 写 操作 。 预 写 
日 志 中 包含 应 用 事务 之 后 磁盘 中 更 改 的 所 有 字 节 。 在 使 用 该 方式 的 数据 库 系 统 (比如 
PostgreSQL) 中 ， 日 志 被 直接 传输 给 follower， 该 日 志 用 于 将 数据 写 入 磁盘 。 


其 优点 如 下 。 





由 于 语句 已 经 解析 并 执行 ， 因 此 操作 非常 快 。 需 要 做 的 仅仅 是 将 变更 落 盘 。 
不 存在 非 确 定性 SQL 语句 的 风险 。 


其 缺点 如 下 。 


。 在 高 频 写 人 环境 中 ， 会 占用 大 量 带 宽 。 
由 于 数据 格式 和 数据 库 引擎 紧密 相关 ， 因 此 不 便于 移植 。 因 而 在 深 动 升级 中 ， 难 以 
减少 宕 机 时 间 。 
不 便于 审计 。 
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持久 化 和 复制 机 制 中 使 用 的 预 写 日 志 通常 是 相同 的 ， 因 此 这 种 方式 高 效 ， 但 可 移植 性 和 
灵活 性 不 佳 。 


基于 行 的 复制 

在 基于 行 的 复制 (也 称 逻 辑 复制 ) 中 ， 写 操作 以 事件 的 形式 写 入 leader 的 复制 日 志 中 ， 
该 事件 指明 了 行 的 更 新 方式 、 列 的 新 数据 、 列 更 新 前 后 的 信息 以 及 删除 的 行 。follower 
市 点 可 以 直接 利用 该 数据 修改 指定 行 ， 而 无 须 执行 原来 的 语句 。 





其 优点 如 下 。 


。 不 存在 非 确 定性 SQL 语句 的 风险 。 

。 复制 速度 介 于 前 两 种 算法 之 间 ， 仍 然 需要 将 逻辑 转化 为 实际 操作 ， 但 不 需要 执行 整 条 
语句 。 

。 可 移植 性 也 介 于 前 两 种 算法 之 间 。 不 是 非常 易 读 ， 但 仍然 可 以 用 于 集成 和 检查 。 


其 缺点 如 下 。 


。 在 高 频 写 入 环境 中 ， 会 占用 大 量 带 宽 。 
。 不 便于 审计 。 


这 种 方法 也 称 变更 数据 捕获 ，SQL Server 和 MySQL 支持 这 种 方式 。 它 也 用 于 数据 仓库 
的 场景 。 


块 复制 

前 面 讨 论 了 数据 库 原生 的 复制 机 制 。 相 比 之 下 ， 块 设备 复制 是 解决 该 问题 的 外 部 方法 。 
一 种 流行 的 实现 方式 是 Linux 的 DRBD (Distributed Replicated Block Device， 分 布 式 复 
制 块 设备 )。DRBD 软件 在 块 设备 上 运行 ， 不 仅 将 数据 写 和 人 本 地 的 块 设备 ， 也 复制 到 其 
他 节点 的 块 设 备 中 。 


块 复 制 是 同步 的 ， 并 极 大 地 消除 了 复制 开销 。 但 是 ， 由 于 不 能 在 第 2 个 节点 上 同时 运行 
数据 库 实 例 ， 因 此 当 进 行 故障 转移 时 ， 必 须 新 启动 一 个 数据 库 实例 。 如 有 果 前 一 个 主 库 发 
生 故 障 时 没有 干净 地 关闭 数据 库 ， 新 启动 的 实例 就 需要 恢复 数据 ， 这 与 在 同一 个 市 点 上 
重启 实例 需要 恢复 数据 是 相同 的 。 


因此 ， 利 用 块 复制 可 以 实现 低 延 迟 的 同步 复制 ， 但 会 失去 利用 副本 进行 扩展 和 人 负载 均衡 
的 能 力 。 好 在 外 部 复制 方法 (比如 块 复制 ) 可 以 和 原生 复制 方法 (比如 基于 语句 的 复 
制 、 基 于 行 的 复制 ) 相 结合 ， 从 而 得 到 无 数据 丢失 且 具 有 异步 复制 灵活 性 的 组 合 方案 。 


其 他 方法 

还 有 其 他 与 数据 库 日 志 解 耦 的 复制 方法 。 提 取 、 转 换 和 加 载 作 业 在 服务 之 间 移 动 数 据 ， 
这 些 作 业 通 常会 寻找 新 行 或 变更 行 的 标记 (比如 ID、 时 间 惟 )， 基 于 这 些 标记 就 可 以 拉 
取 数 据 并 在 别处 加 载 。 
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表 上 的 触发 器 也 可 以 记录 表 的 变更 ， 供 外 部 进程 监听 。 这 些 触发 器 可 能 会 简单 地 列 
更 的 ID， 也 可 能 像 基于 行 的 复制 方法 一 样 ， 收 集 全 部 变更 的 数据 。 


在 评估 复制 方案 时 ， 需 要 将 产 数据 存储 、 目 标 存储 以 及 它们 之 间 的 基础 设施 结合 起 来 ， 
稍 后 会 继续 讨论 。 


并 





3. 单 leader 复制 方式 应 用 

对 于 成 熟 的 数据 存储 而 言 ， 复 制 通常 不 是 必需 的 ， 而 是 可 选项 但是， 依然 有 各 种 各 样 的 
原因 需要 执行 复制 ， 而 复制 方式 会 影响 架构 和 配置 。 在 单 leader 架构 中 ， 原 因 可 以 归 类 为 
可 用 性 、 扩 展 性 、 局 部 性 和 可 移植 性 。 














口 可 用 性 

考 庸 置疑 ， 当 数据 库 leader 发 生 故 障 时 ， 要 有 一 个 最 快 的 恢复 选项 ， 以 便 将 应 用 程序 
流量 指向 该 恢复 选项 。 拥 有 一 个 具有 最 新 数据 副本 的 实时 数据 库 ， 好 于 必须 先 恢复 再 
前 深 到 故障 点 的 备份 。 这 意味 着 在 选择 复制 方式 时 ， 必 须 将 MTTR 和 数据 丢失 放 在 首 
位 。 同 步 复 制 和 半 同 步 复 制 不 会 丢失 数据 且 MTTR 较 短 ， 但 会 影响 应 用 的 延 时 。 在 没 
有 外 部 支持 (例如 除了 数据 存储 还 可 以 将 数据 写 入 消息 系统 ， 以 恢复 在 异步 复制 环境 
中 leader 故障 转移 过 程 中 可 能 丢失 的 数据 ) 的 情况 下 ， 无 法 找到 仅 通过 复制 就 能 实现 
MTTR 短 、 延 时 低 且 不 会 丢失 数据 的 方案 。 


口 扩展 性 
集群 写 IO 受到 单个 leader 写 入 性 能 的 限制 ， 而 follower 可 以 扩展 集群 数据 的 读 取 能 
力 ， 读 取 性 能 的 提升 取决 于 节点 数量 。 对 于 数据 写 和 人 相对 较 少 但 读 取 密 集 的 应 用 ， 多 副 
本 方案 确实 可 以 提高 集群 的 吞吐 上 限 。 由 于 复制 的 开销 不 是 线性 增长 的 ， 因 此 这 种 扩容 
是 受 限 的 。 为 了 支持 扩展 性 ， 副 本 上 的 数据 必须 足够 新 以 满足 业务 需求 。 对 于 某 些 组 织 
而 言 ， 异 步 复制 系统 固有 的 复制 请 后 是 可 以 接受 的 ， 而 对 于 某 些 需求 而 言 ， 无 论 写 延 时 
的 影响 如 何 ， 都 必须 采用 同步 复制 。 


口 局 部 性 
利用 复制 可 以 将 数据 集 存放 在 离 用 户 更 近 的 多 个 位 置 ， 进 而 减少 延 时 。 如 果 用 户 分 布 在 
不 同 的 国家 和 地 区 ， 其 至 是 不 同 大 洲 ， 那 么 距离 会 对 请 求 产 生 重大 影响 。 大 数据 集 不 方 
便 整 体 迁移 ， 但 增 量 修改 可 以 使 数据 保持 最 新 状态 。 如 前 所 述 ， 对 于 带宽 不 足 的 长 距离 
复制 ， 如 果 数 据 压 缩 的 大 小 不 足以 支撑 基于 行 或 预 写 日 志 的 复制 方式 ， 那 么 通常 采用 基 
于 语句 的 复制 。 当 代 的 网 络 和 压缩 技术 在 一 定 程度 上 缓解 了 这 种 情况 。 在 延 时 方面 ， 在 
长 距离 下 半 同 步 复制 和 同步 复制 是 不 可 行 的 ， 因 而 只 能 选择 异步 复制 。 


口 可 移植 性 

当前 保存 在 leader 中 的 数据 ， 很 可 能 需要 存储 到 其 他 数据 存储 中 。 可 以 将 日 志 作 为 数据 
流水 线 中 消费 的 事件 ， 推 送 到 数据 仓库 中 ， 或 者 转移 到 其 他 具有 良好 查询 性 能 或 索引 
的 数据 存储 中 。 采 用 和 副本 相同 的 复制 流 (为 了 可 用 性 和 扩展 )， 可 以 确保 来 自 leader 
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的 数据 集 是 相同 的 。 话 虽 如 此 ， 定 制 方案 (比如 基于 查询 的 ETL、 基 于 触发 器 的 方法 ) 
可 以 获取 经 过 筛选 的 合适 数据 子 集 ， 而 无 须 复制 日 志 中 的 整个 事务 流 。 这 些 作业 对 数据 
即时 性 的 要 求 不 高 ， 这 使 得 可 以 选择 对 延 时 影响 更 小 的 方法 。 


基于 这 些 需求 ， 可 以 选择 一 种 或 者 多 种 复制 方式 。 无 论 怎 么 选择 ， 在 这 些 复制 环境 中 都 会 
碰 到 很 多 挑战 。 


4. 单 leader 复制 方式 面临 的 挑战 
在 任何 复制 环境 中 ， 都 可 能 遇 到 很 多 困难 或 挑战 。 虽 然 单 leader 的 复制 环境 是 最 简单 的 ， 
但 并 不 表示 它 很 容易 。 下 面 介绍 最 常见 的 挑战 。 


口 构建 副本 
对 于 大 型 数据 集 ， 数 据 的 可 移植 性 会 明显 降低 ， 第 7 章 讨 论 过 这 一 点 。 随 着 数据 集 规模 
的 增 大 ，MTTR 会 随 之 增加 。 为 了 将 MTTR 限制 在 可 接受 的 范围 内 ， 需 要 为 大 规模 的 
副本 或 新 的 备份 制定 策略 。 其 他 选项 还 包括 将 整个 数据 集 分 成 多 个 小 数据 集 ， 以 减少 一 
组 服务 器 中 的 数据 集 大 小 ， 这 种 方式 也 称 分 片 (sharding)。 第 12 章 将 进一步 讨论 。 


口 保持 副本 同步 
构建 副本 只 是 复制 环节 的 第 一 步 。 在 采用 异步 复制 且 频 繁 或 大 量 更 改 数据 的 环境 中 ， 保 
持 副 本 及 时 同步 颇具 挑战 。 如 前 所 述 ， 必 须 记 录 更 改 、 发 送 日 志 并 应 用 更 改 。 
关系 型 数据 库 的 设计 通常 会 将 写 和 人 转换 成 一 系列 严格 的 串 行 事务 ， 以 确保 副本 和 leader 
之 间 数 据 集 的 一 致 性 。 在 副本 上 ， 通 常 需要 串 行 执行 ， 一 次 只 能 执行 一 个 变更 。 副 本 的 
这 种 串 行 apply 过 程 往往 导致 其 无 法 跟 上 leader 的 数据 更 新 速度 ， 原 因 如 下 。 



























































。 相 比 leader 缺少 并 发 和 并 行 ， 副 本 的 VO 资源 通常 没有 得 到 充分 利用 。 
。 如 果 没 有 相同 的 读 请 求 ， 要 读 取 的 数据 块 就 可 能 不 在 副本 的 内 存 中 。 
。 如 果 将 读 写 分 离 〈 写 leader， 读 副本 )， 则 并 发 读 请 求 会 影响 副本 的 写 延 时 。 








不 管 什么 原因 ， 最 终结 果 通 常 称 为 副本 滞后 。 在 某 些 环境 中 ， 副 本 渤 后 是 一 种 不 常见 且 
短暂 的 问题 ， 通 常 可 以 在 SLO 内 自行 解决 。 而 在 另 一 些 环境 中 ， 此 类 问题 很 常见 ， 并 
且 会 导致 副本 不 符合 最 初 的 目标 。 如 果 发 生 这 种 情况 ， 表 明 数 据 存储 的 负载 过 大 ， 必 须 
通过 一 种 或 多 种 技术 重新 分 布 负载 。 第 12 章 将 详细 讨论 此 类 技术 ， 这 里 简 述 如 下 。 


























。 短期 
增加 集群 容量 ， 以 满足 当前 负载 需求 。 
中 期 


按 数据 库 的 功能 拆 分 为 独立 集群 ， 以 确保 集群 容量 满足 工作 负载 需求 。 这 种 方法 也 
称 功能 分 区 或 分 片 。 
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中 长 期 
将 整个 数据 集 划 分 到 多 个 集群 ， 以 便 将 工作 负载 控制 在 集群 容量 内 。 这 种 方法 也 称 
数据 集 分 区 或 分 片 。 





。 长 其 
选择 一 种 DBMS， 其 存储 、 一 致 性 和 持久 性 满足 工作 负载 和 SLO， 并 且 不 存在 扩容 
问题 。 


上 述 可 选 方案 表明 ， 所 有 方案 都 无 法 支撑 持续 增长 ， 换 言 之 ， 不 能 随 着 负载 的 增长 而 线 
性 增长 。 在 应 对 容量 增长 方面 ， 一 些 方案 (比如 功能 分 区 ) 比 其 他 方案 比如 数据 集 分 
区 ) 更 容易 出 现 瓶 须 ， 但 是 ， 即 使 是 数据 集 分 区 方案 也 有 极限 。 这 意味 着 必须 评估 其 他 
方面 ， 以 确保 不 会 越界 (收益 递减 ) 而 导致 解决 方案 失效 。 


如 果 已 经 出 现 复制 滞后 ， 并 且 在 实施 长 期 方案 之 前 必须 缓解 由 此 产生 的 影响 ， 那 么 可 以 
采取 一 些 短期 策略 ， 包 括 : 


。 将 活跃 副本 的 数据 集 预 加 载 到 内 存 中 ， 以 减少 磁盘 IO 
降低 副本 的 持久 性 要 求 ， 以 减少 写 延 时 ， 
。 在 设 有 跨 schema 事务 的 情况 下 ， 基 于 schema 进行 并 行 复 制 。 


这 些 都 是 为 了 争取 喘息 时 间 而 采取 的 短期 策略 ， 代 价 是 脆弱 、 维 护 成 本 高 或 者 有 潜在 的 
数据 问题 ， 所 以 在 采用 这 些 策略 前 必须 仔细 检查 ， 仅 在 非常 必要 时 才 实 施 。 


口 单 leader 故障 转移 
复制 的 最 大 价值 之 一 是 存在 另外 的 数据 集 ， 并 且 其 中 的 数据 没有 请 后 ， 因 而 在 发 生 故 障 
或 需要 将 流量 迁 出 leader 时 可 以 充当 新 leader。 然 而 ， 这 种 操作 并 不 简单 ， 需 要 很 多 步 
又 。 在 有 计划 的 故障 转移 中 ， 包 括 以 下 步骤 。 


。 确定 将 哪个 副本 作为 新 leader。 

。 根据 不 同 的 拓扑 关系 ， 可 以 变更 集群 的 部 分 配置 ， 以 便 让 所 有 副本 从 新 leader 复制 
数据 。 

。 如 果 是 异步 复制 ， 则 和 暂停 应 用 程序 流量 ， 以 便 新 leader 更 新 到 最 新 状态 。 

。 重新 配置 应 用 程序 的 客户 端 ， 让 其 指向 新 leader。 


如 果 编 写 脚本 并 自动 执行 恢复 步骤 ， 那 么 在 干 浆 、 计 划 好 的 故障 转移 中 ， 这 将 非常 简 
单 ; 但 是 在 发 生 故障 的 情况 下 ， 依 靠 此 类 自动 化 的 故障 转移 可 能 会 导致 一 些 问题 。 计 划 
外 的 故障 转移 过 程 如 下 。 

1. 数据 库 leader 实例 变 得 无 响应 。 

2. 心跳 监控 进程 尝试 连接 数据 库 的 leader 节点 。 

3. 心跳 监控 程序 挂 起 30s 后 就 会 触发 故障 转移 。 
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4. 故障 转移 算法 执行 如 下 步骤 : 


。 将 具有 最 新 提交 的 副本 节点 标记 为 候选 leader 市 点 ，; 

。 在 日 志 流 的 合适 位 置 ， 让 其 他 副本 开始 从 候选 市 点 复制 数据 ， 
。 监控 集群 状态 ， 直 到 所 有 副本 的 数据 和 候选 市 点 同步 完成 ， 

。 通过 文件 或 服务 更 新 集群 配置 并 下 发 ， 

。 重建 一 个 新 的 副本 节点 。 


在 此 过 程 中 有 许多 地 方 容易 出 错 ， 第 12 章 将 进一步 讨论 。 


尽管 面临 这 些 挑战 ， 复 制 仍 然 是 数据 库 普 遍 具备 的 重要 功能 ， 并 已 成 为 数据 库 基础 设施 的 
重要 组 成 部 分 ， 这 意味 着 必须 把 复制 纳入 可 靠 性 基础 设施 。 


























5. 单 leader 复制 的 监控 
有 效 地 监控 和 运 维 可 见 性 是 有 效 管理 复制 的 基础 ， 这 需要 收集 和 展示 很 多 度量 值 ， 以 确保 
副本 可 以 有 效 地 支撑 组 织 的 SLO。 必 须 监控 的 关键 指标 包括 : 


。 复制 请 后 ; 

。 复制 对 写 延 时 的 影响 ， 
。 副本 可 用 性 ， 

。 复制 一 致 性 ; 








第 4 章 讨论 过 这 些 内 容 ， 但 值得 在 此 重 提 。 


口 复制 的 滞后 与 延 时 
要 想 理 解 复 制 数据 流 ， 首 先 必须 理解 执行 复制 操作 所 需 的 相对 时 间 。 在 异步 复制 环境 
中 ， 这 意味 着 在 主 节 点 上 执行 的 写 操作 与 在 副本 节点 上 执行 写 操 作 的 时 间 间 隔 。 该 间隔 
可 能 会 随 着 时 间 而 变化 ， 但 该 数据 至 关 重 要 。 有 多 种 方法 可 以 测量 该 时 间 间 隔 。 




















和 其 他 分 布 式 系统 一 样 ， 这 些 度量 值 在 一 定 程度 上 依赖 本 机 时 间 。 如 有 果 节 点 的 系统 时 
钟 或 NTP 发 生 偏 移 ， 就 会 导致 度量 值 扭 昌 。 绝 对 不 能 简单 地 依赖 两 台 机 器 的 本 地 时 间 ， 
并 假定 时 间 是 同步 的 。 对 于 大 部 分 采用 异步 复制 的 分 布 式 数 据 库 系 统 而 言 ， 这 不 是 问 
题 。 两 个 时 间 非 常 接 近 ， 这 就 足够 了 。 但 即便 如 此 ， 记 住 对 于 不 同市 点 而 言 时 间 是 一 个 
相对 概念 ， 将 有 助 于 分 析 问 题 。 


要 测量 数据 从 插入 leader 到 插入 副本 节点 的 耗 时 ， 一 种 常用 的 方法 是 插入 一 行 心跳 数 
据 ， 然 后 测量 它 出 现在 副本 节点 上 的 时 间 。 例 如 在 12:00:00 插入 一 条 数据 ， 并 定期 轮 询 
副本 ， 如 果 发 现 副 本 没有 收 到 该 数据 ， 则 可 以 假定 复制 已 停止 ， 如 果 在 12:01:00 查询 时 
发 现 11:59:00 的 数据 存在 ， 但 12:00:00 及 以 后 的 数据 不 存在 ， 则 可 知 在 12:01:00 时 复 
制 请 后 1s， 之 后 可 以 使 用 下 一 行 来 度量 数据 库 当 前 的 沸 后 情况 。 
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对 于 半 同 步 复制 或 完全 同步 复制 ， 需 要 了 解 复制 配置 对 写 入 的 影响 。 这 将 作为 总 体 延 时 
度量 的 一 部 分 。 除 此 之 外 ， 还 需要 度量 从 leader 到 副本 节点 网 络 传输 的 耗 时 ， 因 为 这 是 
通过 网 络 进行 同步 写 操作 的 耗 时 。 


以 下 是 必须 收集 的 关键 度量 值 : 


。 在 异步 复制 中 ，leader 闻 点 与 副本 市 点 之 间 数 据 同 步 的 延 时 ， 
。 leader 市 点 和 副本 市 点 之 间 的 网 络 延 时 ， 
同步 复制 对 写 延 时 的 影响 。 


对 任何 服务 而 言 ， 这 些 度量 值 都 是 很 重要 的 。 代 理 可 以 利用 复制 讲 后 信息 确定 哪个 数据 
库 副本 的 数据 是 及 时 更 新 的 ， 可 以 承担 生产 环境 的 读 流 量 。 代 理 层 也 可 以 移 除 副本 市 点 ， 
以 保证 不 会 读 到 陈旧 的 数据 ， 落 后 的 副本 也 无 须 承担 读 负 载 ， 从 而 可 以 更 快 地 同步 到 最 
新 状态 。 当 然 ， 该 算法 必须 考虑 所 有 副本 都 出 现 延 时 的 场景 ， 由 leader 节点 提供 服务 ? 
从 前 端 截 断 流 量 直到 所 有 副本 同步 更 新 完成 ? 将 系统 设 为 只 读 模式 ?这 些 都 是 应 对 这 种 
场景 的 可 能 选项 。 


除 此 之 外 ， 工 程 师 还 可 以 利用 副本 的 请 后 与 延 时 信息 ， 排 查 数据 一 致 性 、 性 能 下 降 或 其 
他 由 复制 延 时 导致 的 问题 。 


面 看 看 下 一 组 度量 值 : 可 用 性 和 容量 。 























下 


口 复制 的 可 用 性 和 容量 
如 果 使 用 的 是 基于 副本 因子 进行 数据 同步 的 数据 库 (例如 Cassandra) ， 还 需要 监控 满足 
quorum 读 的 可 用 副本 数 。 假 设 集群 的 副本 因子 为 3， 这 表示 一 ea 
应 用 程序 要 求 在 查询 时 ， 此 次 写 入 数据 的 节点 中 有 三 分 之 二 的 节点 返回 结果 。 如 果 有 两 
个 而 点 发 生 故 障 ， 将 无 法 满足 应 用 程序 的 查询 需求 。 主 动 监控 副本 可 用 性 可 以 预知 故障 
风险 。 


类 似 地 ， 即 使 在 没有 副本 因子 和 quorum 要 求 的 环境 中 ， 为 了 符合 SLO， 数 据 库 集群 仍 
需要 能 监控 有 多 少 市 点 可 用 。 监 控 当 前 集群 中 正常 工作 的 市 点数 是 否 满 足 这 些 要 求 是 至 
关 重 要 的 。 


最 后 ， 需 要 及 时 发 现 复制 中 断 。 虽 然 采 用 心跳 方式 监控 复制 沸 后 ， 会 通知 复制 落后 ， 但 
如 果 发 生 异 常 并 且 复 制 已 经 中 断 ， 心 跳 监 控 并 不 会 报警 。 有 很 多 因素 可 能 导致 复制 中 断 。 


网 络 分 区 。 
。 在 基于 语句 的 复制 中 ， 无 法 执行 DML， 包 括 : 
一 _schema 不 匹配 ; 
一 非 确 定性 SQL 语句 导致 数据 集 漂 移 ， 从 而 违反 约束 条 件 ， 
- 意外 到 达 副 本 的 写 操作 导致 数据 集 漂移 。 
。 权限 /安全 设置 变更 。 

































































156 | 第 10 章 


。 副本 空间 不 足 。 
。 副本 数据 损坏 。 


需要 收集 的 度量 值 示 例如 下 。 


。 实际 可 用 的 数据 副本 与 期 望 副本 数 。 

。 需要 修复 的 副本 〈 复 制 中 断 的 )。 

。 leader 市 点 和 副本 市 点 之 间 的 网 络 度量 值 。 

。 数据 库 schema、 用 户 以 及 权限 的 变更 日 志 。 

。 复制 日 志 消 耗 的 存储 。 

。 数据 库 日 志 ， 可 以 提供 关于 复制 错误 和 数据 损坏 的 相关 信息 。 

有 了 这 些 信息 ， 自 动 化 程序 就 能 够 根据 副本 的 可 用 性 度量 值 ， 在 副本 不 足 的 情况 下 部 署 
新 副本 。 运 维 人 员 也 能 快速 查 明 故 障 的 根本 原因 ， 以 便 决 定 是 修复 副本 还 是 直接 替换 ， 
抑或 有 更 多 系统 问题 待 解决 。 

















口 复制 的 一 致 性 

















如 前 所 述 ， 有 些 场景 会 导致 leader 市 点 与 副本 市 点 的 数据 集 不 一 致 。 有 时 ， 如 果 这 种 不 
一 致 导致 apply 阶段 的 复制 失败 ， 就 会 因 复制 中 断 而 收 到 报警 。 更 糟糕 的 是 ， 长 时 间 未 
被 发 现 的 静默 数据 损坏 。 


第 7 章 讨 论 了 验证 流水 线 对 于 维护 数据 集 、 业 务 规则 和 约束 一 致 性 的 重要 性 ， 类 似 的 流 
水 线 能 够 确保 副本 之 间 的 数据 是 一 致 的 。 与 检查 一 至 性 的 数据 验证 流水 线 一 样 ， 从 资源 
角度 看 ， 这 通常 既 不 简单 ， 成 本 也 不 低 ， 所 以 必须 有 选择 性 地 确定 检查 对 象 以 及 检查 的 


























只 追加 写 的 数据 结构 (例如 SSTable)， 或 只 新 增 数据 的 表 (B-Tree 结构 ) 易于 管理 。 
是 因为 可 以 基于 主键 或 日 期 范围 在 一 组 行 上 创建 校 验 和 ， 并 在 副本 之 间 比 较 这 些 校 验 
。 只 要 运行 得 足够 频繁 且 及 时 ， 就 能 确保 数据 是 相对 一 致 的 。 


对 于 允许 修改 的 数据 ， 可 能 更 具 挑 战 性 。 一 种 方法 是 在 应 用 程序 执行 事务 之 后 ， 对 数据 
应 用 数据 库 级 散 列 函数 ( 当 将 其 合并 到 复制 流 中 时 )。 如 果 数 据 复制 正常 ， 每 个 副本 中 
的 散 列 值 是 相同 的 ， 如 果 复 制 不 正常 ， 散 列 值 将 不 同 。 比 较 近 期 事务 散 列 值 的 异步 任务 
可 以 发 现 是 否 存 在 数据 差异 。 

以 上 仅 介 绍 了 可 以 监控 复制 一 致 性 的 几 种 方法 。 为 软件 工程 师 创建 范式 并 分 类 数据 对 
象 ， 以 帮助 他 们 决定 是 否 需要 执行 验证 流水 线 ， 这 样 可 以 减少 不 必要 的 资源 浪费 。 基 于 
存储 的 数据 类 型 “来 决定 采用 采样 验证 还 是 时 间 窗 口 验证 ， 也 是 一 种 有 效 的 方法 。 
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E 4: Todd Anderson, Yuri Breitbart Henry F. Korth, et al. Replication, Consistency, and Practicality: Are These 





Mutually Exclusive? 
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口 运 维 流 程 
最 后 ， 监 控 运 维 流 程 所 需 的 时 间 和 资源 对 于 复制 至 关 重 要 。 随 着 时 间 的 推移 ， 数 据 集 和 
并 发 都 在 增长 ， 这 些 流 程 在 很 多 方面 变 得 越 来 越 紫 重 。 如 果 超 过 一 定 病 值 ， 复 制 的 数据 
可 能 无 法 保持 最 新 ， 或 者 无 法 为 了 支撑 流量 而 维持 一 定数 量 的 副本 。 这 些 度量 值 包括 : 


。 数据 集 大 小 ; 

。 备份 持续 时 间 ， 

。 副本 恢复 时 长 ， 

。 备份 和 恢复 过 程 所 占用 的 网 络 流量 ， 
。 恢复 后 的 同步 时 间 ， 

份 时 对 生产 市 点 的 影响 。 


每 次 备份 、 恢 复 或 者 同步 时 ， 发 送 带 有 合适 度量 值 的 事件 来 创建 报告 ， 以 便 评估 或 者 预 
测 数 据 集 大 小 和 并 发 量 何 时 会 导致 运 维 流程 不 可 用 。 可 以 根据 操作 持续 的 时 间或 者 消耗 
的 资源 ， 随 着 数据 集 和 并 发 量 的 变化 规律 ， 进 行 一 些 基 本 的 预测 性 评估 。 

在 自动 化 预测 之 外 定期 检查 和 测试 ， 有 助 于 运 维 人 员 评 估 操 作 流 程 何 时 不 再 可 扩展 ， 以 
便 提前 准备 更 多 容量 、 重 新 设计 系统 或 流程 ， 或 重新 平衡 数据 集 的 分 布 ， 来 高 效 地 支持 
可 用 性 和 延 时 SLO。 


















































虽然 在 数据 复制 方面 不 可 避免 地 会 有 其 他 度量 值 和 指标 ,但 一 套 有 效 的 监控 指标 可 确保 
的 复制 有 效 地 工作 并 符合 SLO。 


由 于 相对 简单 ， 单 leader 复制 是 迄今 为 止 最 常用 的 复制 方式 。 不 过 ， 有 时 这 种 方法 无 法 满 
足 可 用 性 和 本 地 化 需求 。 通 过 允许 从 多 个 leader 节点 写 和 数据， 可 以 减轻 leader 节点 故障 
转移 带 来 的 影响 ， 并 且 可 以 将 leader 节点 分 布 于 不 同 的 区 域 来 提升 性 能 。 下 面 看 看 该 要 求 
的 方法 和 挑战 。 








10.2.2 ”多 leader 复 制 
打破 单 leader 复制 范式 实际 上 有 两 种 方法 。 第 1 种 方法 名 为 “多 向 复 制 ”“， 或 者 “传统 多 
leader”。 该 方法 中 ， 仍 然 存在 leader 角色 的 概念 ， 并 且 所 有 leader 都 被 设计 成 可 以 写 入 数 
据 ， 并 将 数据 传 到 副本 以 及 其 他 leader。 通 常 有 两 个 分 布 在 不 同 数据 中 心 的 leader。 第 2 种 
方法 支持 从 任意 节点 写 入 ， 即 数据 库 集群 中 的 任意 节点 随时 都 可 以 有 效 地 处 理 读 写 请 求 ， 
写 人 的 数据 随后 会 传 到 其 他 节点 。 

















这 里 无 论 尝试 哪 种 解决 方案 ， 最 终结 果 都 很 复杂 ， 因 为 需要 增加 一 层 用 于 解决 冲突 。 当 所 
有 写 请 求 都 到 单个 leader 时， 有 一 个 前 提 一 一 不 同 节点 之 间 的 写 是 不 会 冲突 的 ， 但 是 如 果 
允许 写 人 多 个 节点 ， 就 可 能 发 生 冲 突 ， 必 须 有 合适 的 手段 来 解决 冲突 ， 这 就 增加 了 应 用 程 
序 的 复杂 性 。 
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1. 多 leader 用 例 
如 果 最 终 多 leader 的 复制 机 制 很 复杂 ， 那 么 值得 为 哪些 需求 承担 其 成 本 和 风险 呢 ? 


口 可 用 性 
在 单 leader 异步 复制 中 ， 当 leader 节点 进行 故障 转移 时 ， 应 用 程序 通常 会 受到 至 少 30 s 
的 影响 ， 有 时 影响 会 持续 30 分 钟 甚至 数 小 时 (取决 于 系统 设计 )， 这 是 由 于 需要 进行 数 
据 一 致 性 检查 、 崩 福 恢 复 或 其 他 步骤 。 


在 某 些 情况 下 ， 这 种 服务 中 断 可 能 是 不 可 接受 的 ， 并 且 没 有 资源 或 者 能 力 通过 修改 应 用 
程序 来 更 透明 地 容忍 故障 转移 。 在 这 种 情况 下 ， 可 能 值得 为 写 操作 跨 节 点 负载 均衡 的 能 
力 接受 不 可 避免 的 复杂 性 。 


口 本 地 化 
为 了 向 全 球 或 者 分 布 在 不 同 地 区 的 用 户 保 证 低 延 时 ， 业 务 可 能 需要 在 不 同 区 域 运行 。 在 
读 密 集 型 应 用 程序 中 ， 通 常 可 以 通过 长 距离 的 单 leader 复制 来 解决 。 然 而 ， 如 果 应 用 程 
序 是 写 密集 型 的 ， 长 距离 发 送 写 请 求 的 延 时 可 能 会 非常 高 。 在 这 种 情况 下 ， 在 每 个 数据 
中 心 都 部 署 一 个 leader 并 解决 冲突 是 更 好 的 办 法 。 

口 灾难 恢复 
与 局 部 性 和 可 用 性 相似 ， 有 时 应 用 程序 非常 重要 ， 必 须 在 多 个 数据 中 心 分 别 部 署 ， 以 便 
在 个 别 数据 中 心 偶发 故障 的 情况 下 保证 可 用 性 。 这 仍然 可 以 通过 单 leader 复制 来 实现 ， 
但 前 提 是 仅 将 辅助 区 域 用 于 只 读 (如 前 所 述 ) 或 者 宛 余 。 但 是 ， 很 少 有 企业 能 够 负担 得 
起 不 让 整个 数据 中 心 “ 物 尽 其 用 ”。 因 此 ， 通 常 选择 多 leader 复制 让 两 个 数据 中 心 都 可 
以 向 用 户 提供 服务 和 支持 。 


随 着 在 云 服 务 中 运行 的 基础 设施 占 比 的 增长 或 者 全 球 分 布 的 需求 ， 最 终 几 乎 不 可 避免 要 评 
估 多 leader 复制 。 多 leader 复制 的 实现 通常 可 以 获得 原生 支持 ， 也 可 以 通过 第 三 方 软件 实 
现 。 挑 战 是 如 何 处 理 不 可 避免 的 冲突 。 


2. 传统 多 向 复制 中 的 冲突 解决 
传统 的 多 向 复制 与 单 leader 最 为 相似 。 本 质 上 ， 当 多 个 leader 允许 写 请 求 时 ， 写 请 求 就 会 
转发 给 所 有 leader。 这 听 起 来 不 错 ， 并 且 可 以 满足 前 面 讨 论 的 所 有 用 例 。 但 是 ， 如 果 采 用 
异步 复制 (这 是 在 包含 多 个 数据 中 心 和 网 络 连 接 缓慢 的 环境 中 唯一 可 行 的 方法 )， 则 可 能 
出 现 问 题 。 在 复制 延迟 或 网 络 分 区 期 间 ， 依 赖 数据 库 的 应 用 程序 将 遇 到 陈旧 数据 。 在 修复 
复制 灌 后 或 网 络 分 区 时 ， 必 须 解 决 写 入 数据 版 本 不 同 的 问题 。 数 据 库 可 靠 性 工程 师 和 软件 
工程 师 如 何 处 理 多 leader 复制 体系 中 的 写 冲 突 问 题 呢 ? 他 们 需要 非常 小 心 。 有 多 种 方法 可 
以 解决 该 问题 。 
口 消除 冲突 
最 简单 的 解决 方式 是 避免 发 生 冲突 。 有 时 可 以 通过 某 种 方式 控制 写 操作 或 请 求 来 避免 冲 
突 ， 示 例如 下 。 
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为 每 个 leader 分 配 一 个 主键 子 集 ， 其 主键 只 能 在 该 特定 leader 上 生成 ， 这 对 于 仅 插 
入 /追加 的 应 用 程序 非常 有 效 。 最 简单 的 方式 是 ， 一 个 leader 负责 奇数 主键 ， 另 一 


个 leader 负责 偶数 主键 。 

亲和力 方法 ， 始 终 将 特定 用 户 路 由 到 特定 leader。 可 以 按 地 区 、 唯 一 ID 或 其 他 方式 
操作 。 

仅 将 第 2 个 leader 用 于 故障 转移 ， 实 际 上 一 次 仅 写 入 一 个 leader， 但 维护 多 leader 
拓扑 以 便 进 行 故障 转移 。 


在 应 用 程序 层 分 片 ， 在 每 个 区 域 中 部 署 完整 的 应 用 程序 栈 ， 从 而 消除 跨 区 域 复制 。 


当然 ， 以 这 种 方式 进行 配置 并 不 意味 着 一 直 是 有 效 的 。 配 置 错误 、 负 载 均 衡 错误 和 人 为 
错误 都 可 能 发 生 ， 并 且 可 能 导致 复制 中 断 或 数据 损坏 。 因 此 ， 即 使 冲突 只 是 偶尔 发 生 ， 
也 需要 做 好 准备 。 如 前 所 述 ， 错 误 越 罕见 ， 危 害 可 能 越 大 。 

















口 最 后 写 入 有 效 
对 于 无 法 避免 的 六 在 写 冲 突 ， 需 要 确定 在 发 生 冲 突 时 如 何 处 理 。 数 据 存储 中 原生 提供 的 
常见 算法 之 一 是 LWW (last write wins， 最 后 写 入 有 效 )。 在 LWW 中 ， 当 两 个 写 操作 发 生 
冲突 时 ， 具 有 最 新 时 间 惟 的 写 操作 是 有 效 的 。 这 似乎 很 简单 ， 但 是 时 间 惟 有 很 多 问题 。 








时 间 戳 一 一 甜蜜 的 谎言 

大 多 数 服务 器 时 钟 使 用 挂钟 时 间 ， 该 时 间 取 决 于 gettimeofday() 国 数 的 返 
回 结果 ， 该 数据 由 硬件 和 NTP 提供 。 许 多 因素 会 导致 时 间 倒 流 而 不 是 前 进 ， 
例如 : 

。 硬 件 问 题 ， 

。 虚拟 化 问题 ; 

。 未 启用 NTP， 或 者 上 游 服务 器 可 能 出 错 ; 

。 国 秒 。 

头 秒 相当 环 手 。POSIX 把 一 天 定义 为 86 400 s， 但 真正 的 一 天 并 不 总 是 如 此 。 
羡 秒 通过 跳 过 或 重复 计算 秒 数 使 各 天 保持 一 致 。 这 可 能 会 导致 严重 的 问题 ， 
谷歌 把 头 秒 均匀 分 布 在 一 天 中 ， 以 保证 时 间 的 均匀 性 >。 















































有 时 LWW 相对 安全 。 如 果 能 确定 写 数据 的 正确 状态 ， 可 以 执行 不 可 变 的 写 操作 ， 则 可 以 
使 用 LWW。 但 是 ， 如 果 依 赖 已 在 事务 中 读 取 的 状态 来 执行 写 操作 ， 则 在 网 络 分 区 的 情况 
下 很 可 能 会 丢失 数据 。 




















Cassandra 和 Riak 是 采用 LWW 的 数据 存储 示例 。 在 Giuseppe DeCandia 的 论文 “Dynamo: 
amazon’s highly available key-value store” 中 ，LWW 是 其 描述 的 处 理 更 新 冲突 的 两 个 选项 
A 





























注 5; 参见 “Time in Distributed Systems ”。 
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口 自 定义 解决 冲突 的 选项 
由 于 依赖 时 间 蕉 的 算法 有 其 局 限 性 ， 因 此 通常 需要 孝 虑 更 多 自 定义 选项 。 当 检测 到 写 冲 
突 时 ， 许 多 复制 器 能 够 执行 自 定义 代码 。 自 动 解决 写 冲 突 所 需 的 逻辑 可 能 非常 广泛 ， 但 
即使 如 此 ， 也 可 能 犯错 。 


使 用 乐观 复制 (允许 写 和 和 复制 所 有 变更 )， 可 以 让 后 台 进程 、 应 用 程序 甚至 用 户 确定 解决 
这 些 冲 突 的 方法 。 这 就 像 选 择 数 据 对 象 的 一 个 版 本 一 样 简单 。 也 可 以 考虑 完全 合并 数据 。 


口 无 冲突 的 复制 数据 类 型 
解决 冲突 的 自 定义 代码 逻辑 很 复杂 ， 因 此 许多 组 织 可 能 不 愿 承担 相应 的 工作 与 风险 。 然 
而 有 一 类 数据 结构 可 以 有 效 地 管理 来 自 多 个 副本 的 写 入 ， 这 些 写 入 可 能 存在 时 间 惟 或 网 
络 方面 的 问题 ， 这 类 数据 结构 称 为 CRDT (conflict free, replicated datatype， 无 冲突 的 复 
制 数据 类 型 )。CRDT 提供 了 强大 的 最 终 一 致 性 ， 因 为 它们 始终 能 在 没有 冲突 的 情况 下 
进行 合并 或 解决 。 在 撰写 本 文 时 ，CRDT 已 应 用 于 Riak 以 及 大 型 在 线 聊 天 软件 中 。 















































由 此 可 知 ， 在 多 leader 环境 中 解决 冲突 是 可 能 的 ， 但 并 不 简单 。 分 布 式 系统 的 复杂 性 是 
非常 现实 的 ， 需 要 大 量 工程 时 间 和 精力 。 此 外 ， 当 前 的 数据 存储 中 可 能 没有 实际 可 用 的 
成 熟 实现 。 所 以 ， 在 涉 水 多 leader 复制 之 前 ， 一定 要 非常 小 心 。 


3. 任意 节点 写 入 的 复制 

传统 的 多 向 复制 有 另 一 种 范式 。 在 “任意 节点 写 入 ”的 方法 中 没有 leader， 任 何 节 点 都 可 
以 读 写 ， 例 如 Riak、Cassandra 和 Voldemort 等 基于 Dynamo 的 系统 就 采用 了 这 种 复制 方 
法 。 下 面 详细 介绍 这 些 系统 的 一 些 属性 : 


最 终 一 致 性 ; 

。 读 写 quorum; 

。 非 严格 的 quorum; 
反 灶 。 

















不 同 的 系统 在 实现 上 会 有 所 区 别 ， 但 这 些 系统 都 采用 无 leader 复制 的 方式 。 只 要 应 用 程序 
可 以 容忍 无 序 的 写 入 ， 就 可 以 使 用 此 类 系统 。 通 常 可 以 通过 一 些 可 调 参数 调整 此 类 系统 的 
行为 ， 以 更 好 地 满足 需求 ， 但 是 无 序 写 入 还 是 不 可 避免 的 。 


口 最 终 一 致 性 
“最 终 一 致 性 ”一 词 经 常 被 认为 与 名 为 NoSQL 的 数据 存储 有 关 。 在 分 布 式 系统 中 ， 服 
务 器 或 网 络 可 能 发 生 故障 。 此 类 系统 设计 成 分 布 式 是 为 了 实现 持续 的 可 用 性 ， 但 有 损 数 
据 一 致 性 。 在 节点 关闭 数 分 钟 、 数 小 时 甚至 数 天 的 情况 下 ， 不 同 节点 存储 的 数据 很 容易 
产生 差异 “。 








注 6: Werner Vogels. Eventually Consistent. 
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当 系 统 恢 复 正常 时 ， 将 利用 前 文 介绍 的 方法 加 以 解决 ， 包 括 : 
。 利用 时 间 截 或 矢量 时 钟 的 LWW; 

。 自 定义 代码 ， 

“ CRDT。 





尽管 不 能 保证 任何 时 候 所 有 市 点 上 的 数据 都 是 一 致 的 ， 但 是 这 些 数 据 最 终 会 收敛 。 在 构 
建 数 据 存储 时 ， 可 以 配置 必须 写 入 多 少 个 数据 副本 才能 在 故障 期 间 进行 判定 。 





话 虽 如 此 ,仍然 必须 证 明 最 终 一 致 性 是 可 行 的 。 无 论 是 对 冲突 解决 技术 的 错误 理解 ， 还 
是 应 用 程序 的 bug， 都 可 能 导致 数据 丢失 。Jepsen 是 一 个 很 棒 的 测试 套件 ， 可 以 有 效 地 
测试 分 布 式 数据 存储 中 数据 的 完整 性 。 其 他 一 些 阅 读 材料 包括 : 


。 Jepsen 的 文章 “Distributed Systems Safety Research”; 

。 Martin Fowler 的 文章 “Eventual Consistency”; 

。 Peter Bailis 和 Ali Ghodsi 的 文章 “Eventual Consistency Today: Limitations, Extensions， 
and Beyond”。 


口 读 写 quorum 
任意 节点 写 和 人 复制 的 一 个 关键 因素 是 ， 必 须 了 解读 写 操作 保证 一 致 性 的 最 少 节点 数 。 在 客 
户 端 或 数据 库 级 别 ， 通 常 可 以 定义 quorum。 从 历史 上 看 ，quorum 是 小 组 开展 业务 所 需 的 
最 少 成 员 数 。 对 于 分 布 式 系统 ， 这 是 保证 数据 一 致 性 所 需 的 最 少 写 和 人 节点 或 读 取 节 点 数 。 


例如 ， 在 由 3 个 节点 组 成 的 集群 中 ， 能 容忍 一 个 市 点 发 生 故 障 ， 这 意味 着 至 少 需要 两 个 
读 取 节 点 和 两 个 写 入 节点。 在 确定 所 需 节 点 时 ， 有 一 个 简单 的 公式 ， 其 中 YX 是 集群 中 
的 市 点 数量 ，R 是 读 取 市 点 的 数量 ， 下 是 写 入 市 点 的 数量 。 如 果 R+W>N， 则 达到 一 个 
有 效 的 quorum 数 ， 可 以 保证 写 入 后 至 少 有 一 个 节点 的 读 取 是 正确 的 。 








在 3 个 节点 的 示例 中 ， 这 意味 着 给 定 2+2>3， 至 少 需要 两 个 读 取 节 点 和 两 个 写 人 节点 。 
如 果 两 个 节点 发 生 故 障 ， 则 只 有 1+1=2 个 节点 (<3)， 因 此 没有 达到 quorum， 集 群 不 应 
在 读 取 时 返回 数据 。 如 果 在 读 取 两 个 节点 时 应 用 程序 收 到 不 同 的 结果 (一 个 节点 上 丢失 
数据 或 数据 不 同 )， 则 使 用 相应 的 冲突 解决 方法 进行 修复 ， 这 称 为 读 修复 。 


关于 quorum 以 及 分 布 式 系统 的 相关 理论 和 实践 ， 还 有 更 多 内 容 ， 推 荐 以 下 阅读 材料 : 


























。 Moni Naor 和 Avishai Wool 的 论文 “The Load, Capacity, and Availability of Quorum 
Systems” ; 


。 Marko Vukolié 的 Quorum Systems: With Applications to Storage and Consensus。 





注 7: Roberto Baldoni, Michel Raynal. Fundamentals of Distributed Computing: A Practical Tour of VectorClock Systems. 
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口 非 严 格 的 quorum 

有 时 部 分 节点 正常 运行 ， 但 不 能 满足 quorum 的 需求 。 可 能 WIL、NX2 和 N3 被 配置 为 提 
供 写 操作 ， 而 N2 和 N3 处 于 关闭 状态 , 但 N1、N4 和 N5 可 用 。 此 时 ， 系 统 应 禁止 对 
应 数据 的 写 操作 ， 直 到 重新 将 节点 加 入 集群 中 并 恢复 quorum 为 止 。 但 是 ， 如 果 接 收 写 
请 求 更 重要 ， 则 可 以 通过 非 严 格 的 quorum 提供 写 操作 ， 这 种 情况 下 其 他 节点 可 以 临时 
处 理 写 请 求 以 满足 quorum。 一 旦 N2 或 N3 在 集群 中 启动 成 功 ， 就 可 以 通过 名 为 hinted 
hand-off 的 过 程 将 数据 回 传 给 N2 和 N3 。 



























































quorum 是 一 致 性 和 可 用 性 之 间 的 权衡 。 了 解数 据 存储 实际 上 如 何 实现 quorum 至 关 重 
要 。 必 须 了 解 何 时 允许 非 严 格 的 quorum ， 以 及 哪些 quorum 可 以 保证 强 一 致 性 。 文 档 可 
能 会 产生 误导 ， 因 此 必须 测试 实现 的 实际 情况 。 


口 反 灶 
保持 最 终 一 致 性 的 另 一 个 工具 是 反 人 。 在 读 修 复 和 hinted hand-off 之 间 ， 基 于 Dynamo 
的 数据 存储 可 以 非常 有 效 地 保持 最 终 一 臻 性。 但是， 如 果 不 经 常 读 取 数 据 ， 则 不 一 致 可 
能 会 持续 很 长 时 间 。 如 果 将 来 进行 故障 转移 ， 应 用 程序 可 能 收 到 的 是 陈旧 数据 。 因 此 ， 
需要 一 种 额外 的 机 制 来 同步 数据 ， 该 过 程 称 为 反 炉 。 











反 信 的 一 个 示例 是 Merkle 树 ， 可 见于 Riak、Cassandra 和 Voldemort 的 实现 中 。Merkle 
树 是 数据 对 象 散 列 的 平衡 树 。 通 过 构建 分 层 树 ， 反 炉 的 后 台 进 程 可 以 快速 识别 布点 之 间 
的 不 同 值 并 进行 修复 。 这 些 散 列 树 在 写 入 时 会 被 修改 ， 并 会 定期 清除 和 重新 生成 ， 以 最 
大 限度 地 降低 丢失 不 一 致 数据 的 风险 。 


对 于 存储 大 量 冷 数 据 的 数据 存储 ， 反 烂 至 关 重 要 ， 它 是 对 hinted hand-off 和 读 修 复 的 良 
好 补充 。 确 保 这 些 数 据 存 储 实现 了 反 信 的 功能 ， 将 有 助 于 在 分 布 式 数据 存储 中 最 大 限度 
地 保证 一 致 性 。 


尽管 这 些 系 统 的 实现 细节 存在 显著 差异 ， 但 组 成 元 素 就 是 前 面 讨 论 的 组 件 。 假 设 应 用 程 


序 可 以 容忍 无 序 的 写 入 和 陈旧 的 读 取 ， 则 无 leader 复制 系统 可 以 提供 出 色 的 容错 性 和 扩 
展 性 。 





了 解 3 种 常用 的 数据 存储 复制 方法 ， 有 助 于 从 高 层次 理解 跨 系 统 分 布 数据 所 采用 的 方法 。 
可 以 基于 团队 的 经 验 和 专长 以 及 对 可 用 性 、 规 模 、 性 能 和 数据 局 部 性 的 需求 ， 设 计 出 符合 
组 织 需 求 的 系统 。 





10.3 小 结 

本 章 是 数据 存储 的 速成 课程 ， 介 绍 了 如 何 将 数据 存储 在 磁盘 上 ， 以 及 如 何 围绕 集群 和 数据 
中 心 推送 数据 。 这 些 内 容 是 数据 库 架 构 的 基础 。 接 下 来 将 深入 研究 数据 存储 的 属性 ， 以 帮 
助 你 和 团队 选择 适合 组 织 需求 的 架构 。 
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数据 存储 领域 指南 


从 技术 上 讲 ， 数 据 存 储 就 是 数据 的 存储 以 及 用 于 数据 存储 、 访 问 和 修改 的 相关 软件 及 结 
构 。 本 书 主要 讨论 当今 组 织 用 于 满足 大 量 用 户 高 并 发 访问 大 量 数据 需求 的 数据 存储 。 


传统 上 ， 读 者 借助 领域 指南 识别 植物 、 动 物 或 其 他 自然 物体 ， 即 

















介绍 各 种 数据 存储 的 特征 ， 这 些 信息 有 助 于 你 至 








LE 解 这 些 数据 存储 





区 分 相似 物体 。 本 章 旨 在 
的 最 佳 用 例 及 广 意 事 项 。 





本 章 首先 定义 数据 存储 的 属性 和 类 别 ， 这 些 与 读 写 数据 的 应 用 程序 开发 人 员 密 切 相 关 ， 然 后 
深入 研究 架构 师 和 运 维 人 员 最 感 兴趣 的 数据 存储 类 别 。 尽 管 我 们 认为 ， 开 发 人 员 、 设 计 人 员 
和 运 维 人 员 都 应 该 了 解数 据 存储 的 所 有 属性 ， 但 必须 承认 ， 人 们 往往 从 各 自 工作 的 角度 评估 
这 些 属性 。 市 面 上 数据 存储 产品 的 种 类 很 多 ， 本 书 无 意 一 一 介绍 ， 而 会 通过 示例 讲解 数据 存 
































储 并 提供 分 析 工 具 ， 以 便 读者 根据 自己 的 需要 和 





目标 深入 研究 。 


11.1 数据 存储 的 概念 属性 











数据 存储 的 分 类 方法 有 很 多 。 实 际 上 ， 如 何 分 类 取决 于 具体 的 工作 内 容 以 及 与 数据 存储 的 
交互 方式 。 应 用 程序 中 是 否 有 查询 、 存 储 和 修改 数据 的 需求 ? 是 否 为 决策 目的 而 查询 和 分 
析 数 据 ? 是 否 设计 了 数据 库 运 行 系统 ? 是 否 管理 、 调 优 或 监控 数据 库 ? 不 同 的 角色 对 数据 











库 和 其 中 数据 有 独特 的 认识 。 














在 ORM 或 Serverless 等 开放 API 的 架构 中 ， 已 经 出 现 了 将 数据 存储 从 其 使 用 者 中 抽象 出 
来 的 趋向 。 我 们 并 不 看 好 这 种 趋向 。 理 解 所 选择 的 数据 存储 的 每 个 属性 及 其 含义 ， 对 于 做 
好 工作 至 关 重 要 。 天 下 没有 免费 的 午餐 ,每 个 有 吸引 力 的 功能 都 伴随 着 其 他 特性 的 割舍 。 


使 用 这 些 数据 存储 的 团队 需要 充分 理解 这 一 点 。 
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11.1.1 数据 模型 

对 于 大 多 数 软件 工程 师 而 言 ， 数 据 模 型 是 最 重要 的 分 类 之 一 。 如 何 构造 数据 以 及 如 何 管 理 
数据 关系 ， 对 于 在 其 上 构建 的 应 用 程序 而 言 至 关 重 要 ， 也 会 极 大 地 影响 管理 数据 库 变更 的 
方式 ， 因 为 不 同 模型 管理 变更 的 方式 千差万别 。 






































下 面 介 绍 4 种 常见 的 数据 模型 : 关系 模型 、 键 值 模型 、 文 档 模 型 和 导航 模型 (图 模型 )， 
每 种 模型 的 用 途 、 限 制 和 特性 都 不 同 。 关 系 模型 历来 最 为 流行 。 由 于 在 生产 中 进行 了 大 规 
模 实践 ， 因 此 关系 模型 更 容易 理解 、 更 稳定 、 风 险 更 小 。 


1. 关系 模型 
关系 模型 最 初 由 E. Codd 在 IBM 内 部 提出 ， 并 于 一 年 后 的 1970 年 发 表 了 论文 “A 
Relational Model of Data for Large Shared Data Banks”。 由 于 本 指南 的 目的 不 是 介绍 完整 的 
背景 知识 ， 而 是 帮助 读者 理解 当今 常见 的 系统 ， 因 此 将 重点 介绍 现代 组 织 中 普遍 采用 的 关 
系 模型 系统 。 
























































关系 型 数据 库 模 型 的 基本 前 提 是 把 数据 表示 为 一 系列 关系 ， 这 些 关 系 基于 唯一 键 (数据 的 
核心 标识 符 )。 关 系 模型 通过 对 关系 、 基 数 、 值 和 某 些 属 性 的 约束 ， 在 不 同 表 之 间 确 保 数 
据 一 致 性 。 关 系 模型 是 固定 的 ， 包 括 各 种 严格 的 约束 ， 也 称 范式 。 实 际 情况 是 ， 由 于 性 能 
和 并 发 问题 ， 理 论 上 的 许多 需求 未 完整 实现 。 











著名 的 关系 型 数据 库 有 Oracle、MySQL、PostgreSQL、DB2、SQL Server 和 Sybase。 该 领 
域 的 其 他 数据 库 有 谷歌 Spanner、 亚 马 逊 RedShiftf、NuoDB 和 Firebird。 其 中 一 些 数 据 库 系 
统 被 归 类 为 NewSQL， 被 视 作 关系 型 数据 库 管理 系统 的 子 类 ， 在 保持 一 致 性 的 同时 试图 突 
破 并 发 和 可 伸缩 的 瓶颈 ， 稍 后 进一步 讨论 ”。 





















































关系 模型 提供 了 一 种 非常 著名 的 数据 检索 方式 。 通 过 连接 以 及 一 对 多 和 多 对 多 关系 ， 开 发 
人 员 可 以 灵活 地 定义 数据 模型 。 这 也 可 能 导致 具有 挑战 性 的 schema 演变 ， 因 为 表 、 关 系 
和 属性 的 添加 、 修 改 和 删除 都 需要 大 量 协 调和 变更 。 如 第 8 章 所 述 ， 这 可 能 导致 成 本 高 昂 
且 有 风险 的 变更 。 





许多 软件 团队 选择 使 用 ORM 层 ， 通 过 将 关系 模型 映射 到 软件 层 定义 的 对 象 模型 来 简化 工 
作 。 此 类 ORM 框架 对 于 提升 开发 速度 而 言 是 很 好 的 工具 ， 但 是 对 于 数据 库 可 靠 性 工程 师 
团队 而 言 ， 会 带 来 诸多 问题 。 














注 1: E.F. Codd. The relational model for database management. 2nd ed. 1990. 
注 2: E.F. Codd. The relational model for database management. 2nd ed. 1990. 
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ORM 与 你 


过 去 十 年 里 ，ORM 已 经 发 展 成 熟 ， 数 据 库 可 靠 性 工程 师 无 须 像 以 前 那样 警惕 ， 但 仍 需 
考虑 一 些 问题 。 


。 ORM 对 表 进 行 读 写 操 作 ， 使 得 对 部 分 工作 负载 的 任何 优化 都 具 挑 战 性 ， 因 为 会 影 


响 整 体 工作 负载 。 
。 ORM 持 有 事务 的 时 间 可 能 比 需要 的 更 长 ， 因 而 会 对 有 限 的 资源 造成 重大 影响 ， 因 
为 快照 被 过 度 维护 。 


。 ORM 可 能 导致 大 量 不 必要 的 查询 。 
。 ORM 可 能 时 致 复杂 且 性 能 不 佳 的 查询 。 





除了 这 些 明显 的 问题 ， 更 大 的 挑战 包括 ORM 将 数据 库 抽象 出 来 ， 消 除了 组 织 扩张 
(超过 为 其 工作 的 数据 库 管 理 员 的 数量 ) 时 所 需 的 协作 ORM 还 会 导致 忽略 约束 、 混 清 
还 辑 ， 并 妨碍 数据 库 可 靠 性 工程 师 理 解 应 用 程序 与 数据 存储 之 间 的 交互 3。 











这 些 问 题 使 得 许多 软件 工程 师 和 架构 师 认 为 关系 型 数据 库 不 够 灵活 ， 并 且 影 响 了 开发 速 
度 。 这 样 的 评价 并 不 准确 ， 稍 后 将 列 出 一 份 更 准确 的 利 次 列表 ， 并 打破 列表 中 许多 流行 的 
“神话 ”。 

2. 键 值 模型 

键 值 模型 将 数据 存储 为 字典 或 散 列 表 。 字 典 与 表 类 似 ， 包 含 任意 数量 的 对 象 ， 每 个 对 象 可 
以 存储 任意 数量 的 属性 或 字段 。 与 关系 型 数据 库 类 似 ， 这 些 记录 也 由 唯一 的 键 标 识 ， 但 无 
法 根据 这 些 键 创建 对 象 之 间 的 映射 。 


键 值 数 据 存储 将 对 象 视 为 数据 块 ， 但 并 不 知道 其 中 的 数据 ， 因 此 每 个 对 象 可 以 有 不 同 的 字 
段 、 艇 套 对 象 以 及 无 限 的 多 样 性 。 这 种 多 样 性 是 有 代价 的 ， 例 如 可 能 导致 数据 不 一 致 ， 这 
是 由 于 在 公共 存储 层 没 有 强制 规则 。 类 似 地 ， 也 没有 高 效 的 数据 类 型 和 索引 。 键 值 数 据 存 
储 消除 了 管理 各 种 数据 类 型 、 约 束 和 关系 的 大 量 开销 。 如 果 应 用 程序 不 需要 这 些 特性 ， 则 
可 以 提高 效率 。 





















































键 值 存储 的 例子 有 很 多 ， 比 如 Dynamo。2007 年 亚马逊 发 表 了 关于 Dynamo 的 论文 ， 介 绍 
了 如 何 构建 高 可 用 的 分 布 式 数据 存储 。 当 讲解 完 所 有 属性 ， 我 们 将 详细 介绍 Dynamo。 基 
于 Dynamo 的 系统 包括 Aerospike、Cassandra、Riak 和 Voldemort。 其 他 键 值 实现 还 包括 
Redis、Oracle NoSQL 数据 库 和 Tokyo Cabinet。 








3. 文档 模型 
从 技术 上 讲 ， 文 档 模型 是 键 值 模型 的 子 集 。 文 档 模型 的 不 同 之 处 在 于 ， 数 据 库 维护 关于 文 








注 3: Christopher Ireland, David Bowers, Michael Newton. et. al. A Classification of Object-Relational Impedance 
Mismatch. 
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档 结 构 的 元 数据 ， 人 允许 进行 数据 类 型 优化 、 辅 助 索引 以 及 其 他 优化 。 文 档 存储 将 与 对 象 相 
关 的 所 有 信息 存储 在 一 起 ， 而 不 是 跨 表 存储 。 这 样 一 次 调用 便 能 获取 所 有 数据 ， 而 无 须 表 
连接 (声称 简单 ， 实 际会 消耗 大 量 资源 )。 通 常 也 不 需要 ORM 层 。 

另外 ， 这 意味 着 如 果 对 象 需要 不 同 的 视图 ， 那 么 文档 存储 必然 不 需要 范式 ， 这 会 导致 膨胀 
和 一 致 性 问题 。 此 外 ， 由 于 没有 schema 这 样 的 简明 文档 ， 因 此 需要 使 用 外 部 工具 来 实施 
数据 治理 。 




















数据 治理 

数据 治理 是 对 组 织 数据 的 可 用 性 、 完 整 性 和 安全 性 的 管理 。 应 该 仔细 考虑 并 
记录 新 添加 的 数据 属性 。 在 数据 存储 中 使 用 JSON， 会 很 容易 其 至 意外 添加 
新 的 数据 属性 。 














4. 导航 模型 

导航 模型 始 于 分 层 和 网 络 数据 库 。 如 今 提 到 导航 模型 ， 几 乎 总 是 指 图 数据 模型 。 图 数据 库 
使 用 节点 、 边 和 属性 来 表示 存储 的 数据 以 及 对 象 之 间 的 连接 。 节 点 包含 特定 对 象 的 数据 ， 
边 是 对 象 之 间 的 关系 ， 属 性 可 添加 节点 相关 数据 。 因 为 关系 是 作为 数据 的 一 部 分 直接 存储 
的 ， 所 以 易于 追踪 连接 。 通 常 可 以 在 一 次 调用 中 检索 整个 图 。 


与 文档 存储 一 样 ， 图 存储 通常 能 直接 映射 到 面向 对 象 应 用 程序 的 结构 中 ， 同 时 消除 了 表 连 


接 ， 并 且 在 数据 模型 演化 方面 更 灵活 。 当 然 ， 这 只 适用 于 查询 图 的 数据 。 实 践 证 明 传统 查 
询 模 式 的 性 能 可 能 差 得 多 “。 





























每 种 模型 都 有 适用 场景 。 下 面 讨论 其 中 的 选择 和 权衡 。 首 先 看 看 事务 和 属 


11.1.2 ”事务 

数据 存储 如 何 处 理事 务 ， 也 是 需要 考虑 和 理解 的 重要 属性 。 事 务实 际 上 是 数据 库 的 逻辑 工 
作 单 元 ， 可 以 认为 不 可 分 割 。 事 务 中 的 所 有 操作 必须 全 部 执行 或 回 深 ， 以 保持 数据 存储 的 
一 致 性 。 确 保 整 个 事务 都 将 被 提交 或 回 滚 ， 将 极 大 地 简化 应 用 程序 的 错误 处 理 逻 辑 。 事 务 
模型 的 此 类 保证 能 够 让 开发 人 员 忽 略 革 些 故障 和 并 发 性 ， 否 则 会 耗费 大 量 时 间 和 资源 。 

如 果 主 要 使 用 传统 的 关系 型 数据 存储 ， 可 能 认为 事务 的 存在 是 理所当然 的 。 这 是 因为 这 些 
数据 存储 几乎 都 是 建立 在 ACID 模型 ( 稍 后 介绍 ) 上 的 ， 该 模型 由 IBM 于 1975 年 提出 。 
所 有 读 写 都 被 视 作 事务 ， 并 利用 数据 库 底层 的 并 发 架构 来 实现 。 



































注 4: Harley Vera, Wagner Boaventura, Maristela Holanda, et al. Data Modeling for NoSQL Document-Oriented 
Databases. 

注 5: Michael Stonebraker, Gerald Held. NETWORKS, HIERARCHIES AND RELATIONS IN DATA BASE 
MANAGEMENT SYSTERMS. 
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1. ACID 

ACID 数据 库 提 供 了 多 项 保证 ， 分 别 是 : atomicity (原子 性 )、consistency (一 致 性 )、 
isolation (隔离 性 ) 和 durability (持久 性 )。1983 年 ，Theo Hirder 和 Andreas Reuter 提出 
了 该 缩 略 词 。ACID 基于 Jim Gray 提出 的 原子 性 、 一 致 性 和 持久 性 (缺少 隔离 性 )。 这 4 个 
特性 描述 了 事务 范式 的 主要 保证 ， 它 影响 了 数据 库 系 统 开 发 的 许多 方面 。 


在 使 用 数据 存储 时 ， 需 要 了 解 它 是 如 何 定义 和 实现 这 些 概念 的 ， 因 为 可 能 存在 歧义 和 多 样 
性 。 鉴 于 此 ， 必 须 考 虑 每 一 种 特性 ， 并 了 解 在 现实 中 可 能 出 现 的 变化 "。 


2. 原子 性 

原子 性 是 指 保证 将 整个 事务 提交 到 (或 写 入 ) 数据 存储 ， 或 回 滚 整个 事务 。 支 持原 子 性 的 数 
据 库 不 存在 部 分 写 或 部 分 回 党。 这 里 的 原子 性 不 同 于 软件 工程 中 的 原子 操作 ， 后 者 指 的 是 并 
发 隔离 (这 样 其 他 进程 能 看 到 进行 中 的 工作 ， 而 不 是 只 看 到 操作 前 的 状况 和 操作 后 的 结果 )。 


事务 执行 失败 并 需要 回 滚 的 原因 有 很 多 。 客 户 端 进程 在 事务 进行 到 一 半 时 可 能 终止 ， 或 网 
络 故障 导致 连接 中 断 。 类 似 地 ， 数 据 库 崩 误 、 服 务 器 故障 和 其 他 许多 操作 可 能 需要 回 滚 部 
分 完成 的 事务 。 

PostgreSQL 通过 pg_log 实现 事务 ， 事 务 写 入 pg9_tog， 并 设置 “进行 中 “提交 ”或 “中 


止 ”状态 。 如 果 客 户 端 放 弃 或 回 滚 一 个 事务 ， 则 标记 为 中 止 。 如 果 没 有 任何 后 端 映 射 到 事 
务 ， 后 台 进 程 也 会 定期 将 事务 标记 为 中 止 。 


















































需要 注意 ， 只 有 在 底层 磁盘 页 的 写 操作 为 原子 性 的 情况 下 ， 才 可 以 考虑 写 操作 的 原子 性 。 
对 于 届 区 写 操 作 的 原子 性 方面 人 们 存在 重大 分 皮 ， 大 多 数 现代 磁盘 为 写 书 区 引入 电源 ， 即 
使 在 磁盘 故障 期 间 也 是 如 此 。 但 是 ， 取 决 于 物理 驱动 器 和 落 盘 之 间 的 抽象 ， 仍 然 存在 丢失 
数据 的 可 能 。 


3. 一 致 性 
一 致 性 是 保证 任何 事务 都 将 数据 库 从 一 个 有 效 状态 转换 到 另 一 个 有 效 状 态 。 可 以 假定 事务 
不 能 违反 已 定义 的 规则 。 从 技术 上 讲 ， 一 致 性 是 在 应 用 程序 级 别 而 不 是 数据 库 级 别 定义 
的 。 然 而 ， 传 统 数据 库 为 开发 人 员 提 供 工具 来 保证 一 致 性 。 这 些 工具 十 分 高 效 ， 包 括 约 束 
和 触发 器 。 约 束 包括 级 联 外 键 、 非 空 、 唯 一 性 约束 、 数 据 类 型 和 长 度 ， 甚 至 是 特定 字段 中 
允许 的 值 。 


























既 有 趣 又 困扰 的 是 ， 一 致 性 这 个 术语 也 用 于 数据 库 和 软件 领域 的 其 他 方面 。CAP 定理 也 用 
了 这 个 术语 ， 但 含义 相去 较 远 。 在 讨论 散 列 和 复制 时 ， 也 会 涉及 该 术语 。 








4. 隔离 性 
隔离 性 是 一 种 承诺 ， 即 并 发 执行 事务 与 串 行 和 顺序 执行 这 些 事务 的 最 终 状 态 是 相同 的 。 











注 6: Marco Vieira, Antonio Casimiro Costa, Henrique Madeira. Timely ACID Transactions in DBMS. 
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支持 ACID 的 数据 库 通过 写 锁 、 读 锁 和 快照 的 技术 组 合 来 实现 这 一 点 ， 统 称 并 发 控制 。 实 
际 上 ， 有 多 种 并 发 控制 可 能 导致 数据 库 的 行为 不 同 。 严 格 的 并 发 控制 会 显著 影响 并 发 事务 
的 性 能 ， 而 宽松 的 并 发 控制 以 减少 隔离 换取 更 好 的 性 能 ”。 











ANSIISO SQL 标准 定义 了 4 种 可 能 的 事务 隔离 级 别 ， 相 同 的 事务 在 不 同 的 级 别 下 结果 可 
能 不 同 。 这 是 根据 每 个 隔离 级 别 是 否 允 许 3 种 潜在 事件 来 定义 的 。 








口 脏 读 
脏 读 指 可 能 读 取 其 他 客户 端 事务 写 入 的 未 提交 数据 或 脏 数 据 。 


口 不 可 重复 读 
不 可 重复 读 指 在 事务 的 上 下 文中 如 果 执 行 两 次 相同 的 读 ， 则 由 于 数据 库 中 其 他 并 发 活动 
可 能 导致 结果 不 同 。 


























口 幻 读 
幻 读 指 在 事务 的 上 下 文中 ， 执 行 两 次 相同 的 读 ， 第 2 次 返回 的 数据 与 第 1 次 的 不 同 。 与 
不 可 重复 读 不 同 ， 在 幻 读 中 ， 已 经 查询 的 数据 不 会 改变 ， 但 是 返回 的 数据 多 于 以 前 。 


为 了 避免 上 述 现 象 ， 可 以 采用 以 下 4 种 隔离 级 别 。 











口 读 未 提交 
这 是 最 低 的 隔离 级 别 。 在 该 隔离 级 别 下 ， 存 在 脏 读 、 脏 写 、 不 可 重复 读 和 幻 读 。 








口 读 已 提交 
在 该 隔离 级 别 ， 目 标 是 避免 脏 读 和 脏 写 。 换 言 之 ， 不 能 读 取 或 覆盖 未 提交 的 数据 。 一 些 
数据 库 通 过 在 选 定 的 数据 上 获取 写 锁 来 避免 脏 写 ， 持 有 写 锁 直到 数据 提交 ， 读 锁 在 查询 
之 后 就 释放 。 脏 读 通 常 是 由 于 写 入 数据 的 多 个 副本 导致 的 ， 读 到 了 部 分 已 经 提交 的 数据 
和 部 分 未 提交 的 数据 。 


在 读 已 提交 隔离 级 别 ， 仍 会 遇 到 不 可 重复 读 。 如 果 之 前 读 取 了 数据 ， 提 交 之 后 再 次 读 
取 ， 则 在 自己 的 事务 上 下 文中 会 出 现 不 同 的 值 。 


口 可 重复 读 
为 了 实现 读 已 提交 隔离 级 别 并 避免 不 可 重复 读 ， 必 须 采 用 额外 的 控制 机 制 。 如 果 数 据 库 
使 用 锁 控 制 并 发 ， 则 客户 端 需要 保持 读 写 锁 直 到 事务 结束 。 不 过 ， 它 并 不 会 持 有 范围 
锁 ， 因 此 可 能 出 现 幻 读 。 可 以 想见 ， 这 种 基于 锁 的 方法 非常 繁重 ， 可 能 会 显著 影响 系统 
高 并 发 的 性 能 。 


另 一 种 实现 此 目的 的 方法 是 快照 隔离 。 在 快照 隔离 中 ， 事 务 启动 后 ， 客 户 端 将 看 到 当前 
数据 库 的 镜像 。 获 取 快 照 后 的 写 操作 不 会 出 现在 快照 中 ， 这 使 得 长 时 间 运 行 的 读 操作 具 






























































注 7: Atul Adya, Barbara Liskov, Patrick O’Neil. Generalized Isolation Level Definitions. 
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有 一 致 、 可 重复 的 查询 结果 。 快 照 隔 离 使 用 写 锁 而 不 是 读 锁 ， 旨 在 确保 读 操作 不 会 阻塞 
写 操作 ， 反 之 亦 然 。 由 于 存在 两 个 以 上 副本 ， 因 此 这 称 为 多 版 本 并 发 控制 (multiversion 


concurrency control，MVCC ) 。 








在 可 重复 读 快照 隔离 中 ， 仍 可 能 发 生 写 偏 序 。 在 写 偏 序 中 ， 两 个 写 操作 可 能 发 生 在 同一 
列 上 ， 也 可 能 发 生 在 同一 行 的 不 同 列 上 ， 因 为 已 经 读 取 了 正在 更 新 的 列 ， 所 以 将 导致 行 
中 的 数据 来 自 两 个 事务 。 

串 行 化 

这 是 最 高 级 别 的 隔离 ， 旨 在 避免 上 述 所 有 现象 。 与 可 重复 读 类 似 ， 如 果 锁 是 并 发 控制 的 
焦点 ， 那 么 需要 在 事务 期 间 持 有 读 锁 和 写 锁 ， 但 还 需要 添加 一 些 锁定 策略 ， 因 此 称 为 两 
阶段 锁定 (2-phase locking，2PL ) 。 


























在 2PL 中 ， 锁 分 为 共享 锁 和 排他 锁 。 多 个 读 操作 可 以 共享 读 锁 ， 但 必须 在 其 他 事务 释 
放 所 有 共享 读 锁 之 后 ， 才 能 获得 写 操作 的 排他 锁 。 类 似 地 ， 如 果 正 在 进行 写 操作 ， 则 无 
法 获取 读 操 作 的 共享 锁 。 在 这 种 模式 下 ， 在 高 并 发 环境 中 多 个 事务 因为 相互 等 待 锁 而 被 
阻塞 是 很 常见 的 ， 这 种 现象 称 为 死 锁 。 此 外 ， 还 必须 在 WHERE 子 句 中 使 用 范围 查询 获取 
范围 锁 ， 否 则 将 发 生 幻 读 。 


2PL 会 极 大 地 影响 事务 的 延 时 。 当 大 量 事务 处 于 等 待 状态 ， 整 个 系统 的 延 时 都 将 大 增 。 
所 以 ， 很 多 系统 只 实现 了 可 重复 读 ， 而 非 全 面 的 可 串 行 性 。 





























非 基于 锁 的 方法 基于 快照 隔离 ， 称 为 串 行 快照 隔离 (serial snapshot isolation，SSI) 。 这 
是 一 种 乐观 串 行 化 的 方法 ， 在 该 方法 中 ， 数 据 库 将 等 待 提交 ， 以 检查 是 否 存在 导致 串 行 
性 问题 (通常 是 写 冲 突 ) 的 事务 。 在 并 发 冲突 很 少 的 系统 中 ， 这 样 做 明显 减少 了 延 时 ; 
但 是 ， 如 果 经 常 发 生 冲 突 ， 那 么 经 常 回 深 和 重 试 带 来 的 问题 可 能 非常 明显 。 



































因为 每 个 隔离 级 别 都 比 其 下 的 隔离 级 别 更 严格 ， 所 以 在 较 低 隔离 级 别 禁 止 的 行为 在 高 隔 
级 别 仍 被 禁止 。 该 标准 使 得 DBMS 能 在 更 高 〈 比 所 需 的 隔离 级 别 ) 的 隔离 级 别 上 执行 事 
(例如 “ 读 已 提交 ”事务 可 以 在 “可 重复 读 取 ”隔离 级 别 上 执行 )。 














离 
务 





隔离 的 不 同 实现 
如 前 所 述 ， 在 执行 ANSI 隔离 标准 时 ， 数 据 存 储 之 间 存 在 显著 差异 。 
。 PostgreSQL: 有 读 已 提交 、 可 重复 读 和 串 行 化 的 隔离 级 别 ， 串 行 化 采用 SSI。 
。 Oracle: 只 有 读 已 提交 和 串 行 化 的 隔离 级 别 , 该 串 行 化 比 实际 的 串 行 化 更 接近 可 重复 读 。 
。 MySQL/InnoDB: 有 读 已 提交 、 可 重复 读 和 串 行 化 的 隔离 级 别 ， 串 行 化 使 用 2PL， 
但 不 检测 更 新 的 丢失 “。 

















注 8: 参见 Baron Schwartz 的 博文 “If Eventual Consistency Seems Hard, Wait Till You Try MVCC”。 
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前 面 只 讨论 了 隔离 、 隔 离异 常 和 隔离 实现 的 皮毛 。 章 末 将 推荐 一 些 有 趣 的 读物 ， 供 深入 
阅读 。 


5. 持久 性 

持久 性 是 一 种 保证 : 一 旦 事务 被 提交 ， 就 永远 提交 了 ， 无 论 是 否 存在 断 电 、 数 据 库 崩溃 、 
硬件 故障 或 其 他 任何 问题 ， 事 务 都 将 持久 有 效 。 显 然 ， 数 据 库 不 能 保证 底层 硬件 支持 这 种 
持久 性 。 如 第 5 章 所 述 ， 数 据 库 很 可 能 以 为 数据 已 经 同步 到 磁盘 ， 实 际 情况 却 并 非 如 此 。 








持久 性 与 原子 性 密切 相关 ， 因 为 原子 性 需要 持久 性 。 许 多 数据 库 实现 了 预 写 日 志 ， 以 便 在 
写 操作 同步 到 磁盘 之 前 捕获 所 有 写 操作 ， 该 日 志 用 于 事务 撤销 或 重 放 。 如 有 果 发 生 故障 ， 在 
重新 启动 时 ， 数 据 库 可 以 检查 该 日 志 ， 以 确定 是 否 需 要 撤销 、 完 成 或 忽略 事务 。 


就 像 隔 离 级 别 一 样 ， 有 时 为 了 性 能 可 适当 放松 持久 性 。 为 了 真正 的 持久 性 ， 每 次 提交 时 都 
必须 刷新 磁盘 。 这 样 做 成 本 可 能 较 高 ， 并 不 是 所 有 事务 和 写 操 作 都 需要 这 样 做 。 例 如 在 
MySQL 中 ， 可 以 把 InnoDB 日 志 刷 新 调整 为 定期 执行 ， 而 不 是 每 次 提交 后 都 执行 。 也 可 以 
对 复制 日 志 执 行 该 操作 ”。 

从 更 高 的 层次 看 ， 支 持 事务 的 系统 显然 隐藏 了 许多 实现 细节 。 组 织 中 的 数据 库 可 靠 性 工程 
师 应 确保 除 自 己 外 ， 整 个 开发 团队 都 熟悉 数据 库 的 实现 。 文 档 中 的 这 些 实现 细节 通常 并 不 
显而易见 ， 但 可 以 使 用 Jepsen 和 Hermitage 之 类 的 工具 进一步 测试 来 加 深 理 解 。 




















类 似 地 ， 当 有 降低 持久 性 或 弱 隔 离 的 选项 时 ， 这 些 知 识 有 助 于 选择 合适 的 配置 。 另 外 ， 了 
解数 据 库 默认 值 何 时 不 能 满足 应 用 程序 的 需求 也 同样 重要 。 





11.1.3 BASE 


工程 师 们 在 寻找 传统 关系 型 系统 的 替代 方案 时 ， 已 开始 把 BASE 一 词 用 作 ACID 的 同 
义 词 。BASE 代表 基本 可 用 (basically available) 、 软 状态 (soft state) 以 及 最 终 一 致 性 
(eventual consistency)。BASE 重点 关注 非 事 务 性 分 布 式 系统 ， 这 些 系 统 的 复制 和 同步 机 制 
可 能 与 传统 数据 库 不 同 。 与 ACID 系统 不 同 ， 当 此 类 系统 正常 运行 并 接收 流量 时 ， 可 能 永 
远 不 会 处 于 明确 的 状态 。 同 样 ， 无 须 事务 的 并 发 控制 ， 以 牺牲 原子 性 、 隔 离 性 和 一 致 性 为 
代价 ， 可 以 大 幅 提高 读 写 吞 吐 量 和 并 发 性 "。 

研究 过 数据 库 的 数据 模型 和 事务 模型 之 后 ， 下 面 介绍 与 开发 人 员 最 相关 的 概念 。 在 评估 数 
据 库 选 型 以 及 数据 库 周边 的 整个 运 维 生 态 系统 和 基础 设施 时 ， 还 必须 考虑 其 他 许多 属性 
( 见 表 11-1)。 




















注 9: Russell Sears, Eric Brewer. Segment-Based Recovery: Write-ahead loggin revisited. 
注 10: Charles Roe. The Question of Database Transaction Processing: An ACID, Base, NoSQL Prime. 
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表 11-1: 数据 存储 概念 属性 汇总 























属性 MySQL Cassandra MongoDB Neo4J 

数据 模型 关系 键 值 文档 导航 

模型 成 熟 度 成 熟 2008 2007 2010 

对 象 关系 外 键 无 DBRef 模型 核心 
原子 性 支持 分 区 级 别 文档 级 别 对 象 级 别 

一 致 性 (节点 ) 支持 不 支持 不 支持 强 一 致 

一 致 性 (集群 ) ”基于 副本 最 终 一 致 (可 调节 ) 最终 一 致 XA 事务 支持 
隔离 性 MVCC 串 行 化 选项 读 未 提交 读 已 提交 

持久 性 DML 支持 ，DDL 不 支持 支持 (可 调节 ) 支持 〈 可 调节 ) ”支持 ， 预 写 日 志 





很 多 事情 被 过 度 简化 了 。 质 疑 特 性 的 真实 表现 以 及 测试 这 些 功 能 ， 有 助 于 在 为 应 用 程序 评 
佑 数据 存储 时 明晰 问题 。 即 使 有 这 些 警 告 ,仍然 存在 一 些 明显 差异 ， 这 可 用 于 为 应 用 程序 
做 出 合适 的 选择 。 下 一 步 是 评估 数据 存储 的 内 部 属性 以 获得 全 面 认 识 。 


11.2 ”数据 存储 的 内 部 属性 

有 多 种 方法 可 以 描述 和 分 类 数据 库 。 数 据 模 型 和 事务 结构 是 直接 影响 应 用 程序 架构 和 逻辑 
的 属性 ， 因 此 追求 速度 和 灵活 性 的 开发 人 员 会 重点 关注 这 两 个 属性 。 数 据 库 的 内 部 架构 实 
现 往往 是 黑 盒 ， 或 者 只 是 营销 手册 上 吹 咕 的 功能 。 尽 管 如 此 ， 它 们 对 于 选择 合适 的 长 久 数 
据 存 储 至 关 重 要 。 


11.2.1 存储 

第 10 章 详细 介绍 了 存储 。 每 种 数据 存储 都 有 一 个 或 多 个 将 数据 写 入 磁盘 的 选项 ， 通 常 形 
式 为 存储 引擎 。 存 储 引擎 管理 数据 的 读 写 、 锁 、 数 据 的 并 发 访问 以 及 管理 数据 结构 所 需 的 
任何 流程 ， 例 如 B-tree 索引 、LSM 树 和 布 隆 过 滤器 。 















































某 些 数据 库 〈 例 如 MySQL 和 MongoDB) 提供 了 多 个 存储 引擎 选项 ， 例 如 在 MongoDB 
中 ， 可 以 使 用 MMap、WiredTiger 以 及 LSM 树 或 基于 LSM 树 的 RocksDB。 存 储 引 警 的 实 
现 各 有 不 同 ， 但 是 存储 引擎 的 属性 通常 可 以 细 分 为 以 下 内 容 : 








写 性 能 ， 

，。 读 性 能 ， 

。 写 操作 的 持久 性 ， 

。 存储 空间 。 

根据 这 些 属性 评估 存储 引擎 ， 有 助 于 为 数据 存储 选择 合适 的 存储 引擎 。 通 常 要 在 读 写 性 能 
和 持久 性 之 闻 权衡 。 还 可 以 通过 一 些 特性 来 提高 存储 引擎 的 持久 性 。 了 解 这 些 以 及 对 持久 
性 的 真实 性 进行 基准 测试 是 非常 重要 的 。 
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11.2.2 无 处 不 在 的 CAP 理 论 

人 们 在 讨论 这 些 属性 时 ， 通常 指 的 是 Eric Brewer 的 CAP 定理 ”( 见 图 11-1)。 根 据 CAP 
定理 ， 任 何 通 过 网 络 共享 数据 的 系统 最 多 可 以 满足 以 下 三 个 属性 中 的 两 个 : 一 致 性 
(consistency)、 可 用 性 (availability) 和 分 区 容错 性 (partition tolerance)。 类 似 于 ACID 中 
的 术语 ， 这 些 术 语 过 于 笼统 。 每 个 属性 都 不 是 单独 的 ， 实 际 上 相互 关联 。 许 多 系统 强调 
CP 或 AP， 这 意味 着 此 类 系统 为 了 两 个 特定 属性 而 牺 竹 了 另 一 个 属性 。 但 是 ， 如 果 这 入 研 
究 这 些 系统 ， 就 会 发 现 它 们 对 每 个 特定 属性 的 实现 都 是 不 完整 的 ， 仅 实现 了 部 分 可 用 性 或 
一 致 性 。 








Brewer 的 CAP 定 理 














图 11-1: Brewer 的 CAP 定理 : 一 致 性 、 可 用 性 和 分 区 容错 性 


CAP 旨 在 帮助 设计 人 员 了 解 一 致 性 和 可 用 性 之 间 的 权衡 。 分 布 式 系统 中 的 网 络 分 区 是 不 可 
避免 的 。 网 络 本 质 上 是 不 可 靠 的 ， 在 这 种 情况 下 ， 如 果 分 区 后 允许 更 新 节点 的 状态 ， 则 不 
可 避免 地 会 失去 一 致 性 。 如 果 需 要 一 致 性 ， 则 其 中 一 个 分 区 必然 不 可 用 。 下 面 仔细 研究 每 
个 属性 及 其 相关 内 容 。 


1. 一 致 性 

前 面 讨 论 过 一 致 性 。 困 扰 的 是 ，ACID 中 的 一 致 性 与 CAP 中 的 一 致 性 不 同 。 在 ACID 中 ， 
一 致 性 意味 着 事务 保证 所 有 数据 库 规 则 和 约束 ， 而 在 CAP 中 ， 一 致 性 意味 着 线性 一 致 
性 。 线 性 一 致 性 保证 了 对 分 布 式 数 据 库 中 对 象 的 一 组 操作 将 按时 间 执行 。 因 为 操作 包含 






































注 11: Martin Kleppmann. Please stop calling databases CP or AP. 
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读 和 写 ， 所 以 这 些 操作 必须 按 执行 的 顺序 呈现 给 系统 中 的 其 他 用 户 。 线 性 化 是 顺序 一 致 
性 的 保证 “。 





在 网 络 分 区 的 情况 下 ，ACID 中 的 一 致 性 (比如 CAP 一 致 性 ) 无 法 保证 ， 这 意味 着 基于 
ACID 的 事务 数据 存储 在 网 络 分 区 时 只 能 通过 牺牲 可 用 性 来 保证 一 致 性 “。 因 此 发 展 出 了 
BASE 理论 ， 以 便 在 不 牺牲 可 用 性 的 情况 下 容忍 网 络 分 区 。 


2. 可 用 性 

CAP 定理 的 可 用 性 是 指 处 理 请 求 的 能 力 。 通 常 大 多 数 分 布 式 系统 可 以 提供 一 致 性 和 可 用 
性 ， 但 在 网 络 分 区 的 情况 下 ， 甚 中 一 部 分 节点 与 另 一 部 分 节点 分 割 开 来 ， 所 以 如 果 必 须 保 
证 可 用 ,要 以 牺牲 一 致 性 为 代价 。 当 然 ， 没 有 任何 系统 可 以 一 直 保 持 完全 的 可 用 性 ， 这 体 
现 了 之 前 所 说 的 可 用 性 与 其 他 属性 是 相连 的 ， 而 不 是 抓 立 的 属性 。 


3. 分 区 容错 性 
网 络 分 区 是 连接 的 暂时 或 永久 中 断 ， 最 终 导 致 网 络 基础 设施 中 的 两 个 子 集 的 通信 中 断 。 实 
际 上 ， 这 样 通常 会 形成 两 个 较 小 的 集群 。 这 两 个 集群 都 认为 自己 是 最 后 存活 的 集群 ， 可 以 
继续 提供 写 入 服务 。 这 会 产生 两 个 数据 集 ， 这 种 情况 称 为 裂 脑 。 












































CAP 定理 的 提出 ， 是 为 了 帮助 人 们 理解 分 布 式 数据 存储 中 一 致 性 和 可 用 性 之 间 的 权衡 。 实 
际 上 ， 网 络 分 区 在 数据 存储 的 生命 周期 中 只 占 很 少 的 时 间 ， 系 统 应 该 同时 具备 一 致 性 和 可 
用 性 。 但 是 ， 当 发 生 分 区 上 时， 系统 必须 能 够 发 现 并 加 以 管理 ， 以 恢复 一 致 性 和 可 用 性 。 











如 果 CAP 定理 完全 不 考虑 延 时 或 性 能 ， 就 没有 实际 价值 。 延 时 与 可 用 性 同样 重要 ， 高 延 
时 也 是 导致 一 致 性 问题 的 斑 在 原因 。 过 长 的 延 时 会 迫使 系统 进入 与 网 络 分 区 相似 的 故障 状 
态 。 需 要 权衡 延 时 ,但 这 种 权衡 通常 比 权衡 一 致 性 和 可 用 性 更 为 明确 。 实 际 上 ，BASE 系 
统 和 NoSQL 变革 兴起 的 另 一 个 重要 原因 是 对 大 规模 提升 性 能 的 需求 。 














了 解 了 CAP 定理 ， 下 面 介绍 它 如 何 影响 数据 库 分 类 。 可 以 采用 CP 与 AP 的 概念 ， 但 如 前 
所 述 ， 这 种 方法 过 于 简化 。 首 先 看 看 分 布 式 系统 如 何 保持 一 致 性 和 可 用 性 。 


11.2.3 一致 性 与 延 时 的 权衡 

在 分 布 式 系 统 中 ， 如 果 所 有 节点 都 以 相同 的 顺序 写 入 事务 ， 则 称 该 系统 强 一 致 ， 换言之 ， 
系统 是 线性 化 的 。CAP 定理 专门 讨论 了 在 网 络 分 区 的 情况 下 ， 分 布 式 数据 存储 如 何 提高 一 
致 性 或 可 用 性 。 但 是 ， 在 数据 存储 的 整个 生命 周期 中 都 需要 一 致 性 ， 并 且 不 能 仅 通过 CAP 
范式 来 看 待 一 致 性 “。 


















































注 12: Peter Bailis. Linearizability versus Serializability. 
注 13: Eric Brewer CAP Twelve Years Later: How the “Rules” Have Changed. 
注 14: Daniel J. Abadi. Consistency Tradeoffs in Modern Distributed Database System Design. 
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大 家 都 希望 分 布 式 数据 存储 具有 强 一致 性 ， 但 很 少 有 人 愿意 接受 强 一致 性 对 延 时 和 可 用 性 
的 影响 ， 因 此 需要 权衡 。 下 面 讨论 权 衡 取 售 以 及 它们 如 何 影响 集群 中 的 整体 一 致 性 ， 以 便 
评估 数据 存储 是 否 符合 需求 。 


将 数据 写 和 分布 式 数据 存储 中 的 节点 时 ， 必 须 复 制 数据 以 保证 可 用 性 。 如 前 所 述 ， 复 制 数 
据 有 多 种 方式 。 


。 将 写 操作 同步 发 送 到 所 有 节点 。 

。 将 写 操作 发 送 到 一 个 节点 ( 主 市 点 ) ; 异步 、 半 同步 或 同步 复制 到 其 他 节点 。 

。 将 写 操作 发 送 到 任意 节点 ， 该 市 点 仅 充当 该 事务 的 主 节点 ， 异 步 、 半 同步 或 同步 复制 到 
其 他 节点 。 


当 集 群 中 的 任何 节点 都 可 写 时 ， 如 果 没 有 协调 程序 (例如 Paxos) 有 效 地 对 写 操作 进行 排 
序 ， 则 有 可 能 破坏 一 致 性 ， 但 排序 必然 会 增加 事务 的 延 时 。 这 是 保持 强 一 致 性 同时 权衡 延 
才 影 响 的 一 种 方法 。 如 果 延 时 比 排序 更 重要 ， 则 在 此 阶段 可 能 会 牺牲 一 致 性 。 这 就 是 排序 
与 延 时 之 间 的 权衡 。 


写 操作 发 送 到 其 中 一 个 节点 〈 主 节点 )， 然 后 必须 复制 到 其 他 节点 。 由 于 主 节点 可 能 关闭 / 
损坏 或 由 于 负载 过 大 而 导致 超时 ， 进 而 导致 接收 写 操作 的 主 节 点 不 可 用 。 重 试 或 等 待 会 增 
加 延 时 ， 但 可 以 配置 负载 均衡 或 代理 服务 器 ， 在 超时 后 将 写 操作 发 送 到 其 他 节点 。 但 是 ， 
这 样 做 可 能 会 导致 一 致 性 问题 ， 因 为 如 果 原 始 的 事务 已 被 处 理 但 未 确认 ， 则 会 产生 冲突 。 
增加 重 试 次 数 或 扩大 超时 窗口 会 影响 延 时 ， 在 保证 一 致 性 的 同时 会 影响 可 用 性 。 这 是 主 节 
点 超时 与 重 试 之 间 的 权衡 。 


从 市 点 读 取 数据 时 ， 也 会 遇 到 超时 或 不 可 用 的 情况 。 在 异步 复制 的 环境 中 ， 将 读 操作 发 送 
到 其 他 布点 可 能 会 使 其 读 取 陈旧 数据 ， 从 而 导致 一 致 性 问题 。 增 加 超时 和 重 试 次 数 会 降低 
结果 不 一 致 的 风险 ， 但 会 增加 等 待 时 间 。 这 是 读 取 超 时 与 重 试 之 间 的 权衡 。 


同步 写 入 所 有 节点 时 ， 无 论 是 通过 有 序 处 理 还 是 通过 复制 ， 将 所 有 事务 发 送 到 其 他 节点 所 
产生 的 开销 会 导致 额外 的 延 时 。 如 果 这 些 节 点 处 于 拥堵 的 网 络 中 或 跨 网 络 通信 ， 则 延 时 可 
能 会 非常 高 。 这 是 同步 复制 与 延 时 之 间 的 权衡 。 一 种 折 中 方案 是 半 同 步 复 制 ， 通 过 减少 参 
与 节点 和 网 络 连接 的 数量 来 减少 延 时 。 但 是 ， 增 加 延 时 就 增 大 了 数据 丢失 的 风险 ， 从 而 牺 
性 了 可 用 性 。 这 是 半 同 步 与 可 用 性 和 延 时 之 间 的 权衡 。 


上 述 权衡 展示 了 提高 系统 一 致 性 或 减少 延 时 的 方式 。 在 系统 发 生 网 络 分 区 时 ， 这 些 权衡 对 
于 保证 系统 继续 提供 服务 至 关 重 要 。 





















































11.2.4 可 用 性 
同一 致 性 及 其 与 延 时 的 关系 类 似 ， 也 需要 考量 可 用 性 。 类 似 于 CAP 定理 ， 发 生 网 络 分 区 
时 也 需要 考虑 可 用 性 。 但 是 ， 面 对 单 市 点 故障 、 多 市 点 故障 或 整个 集群 故障 ， 每 天 都 会 出 
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现 可 用 性 问题 。 在 讨论 分 布 式 系统 中 的 可 用 性 时 ， 采 用 产量 (yield) 和 收成 (harvest) 的 
概念 ， 而 不 是 简单 地 归结 为 可 用 性 ， 是 很 有 帮助 的 。 产 量 指 完成 一 个 请 求 的 可 能 性 ， 收 成 
上 结果 数据 集 的 完 人 el 而 是 简单 地 评估 
哪 各 方法 最 人 





或 人 少 














em A a At Oe ee es ae 
节点 失效 ， 查 询 中 提供 75% 的 数据 是 否 可 接受 ?如 果 搜 索 返 回 大 量 结果 ， 则 可 以 接受 。 

是 如 此 ， 那 么 可 以 更 好 地 容忍 和 
同样 ， 如 果 收 成 必须 保持 接近 100%， 则 需要 更 多 数据 副本 。 这 不 仅 意 味 着 有 更 多 副本 ， 
而 且 还 应 该 有 更 多 可 用 区 来 保存 副本 。 















































这 一 点 在 把 应 用 程序 分 解 为 子 应 用 程序 时 也 有 体现 。 无 论 是 功能 分 区 还 是 微服 务 中 都 经 党 
出 现 这 种 情况 ， 结 果 是 将 故障 与 系统 的 其 余部 分 隔离 开 来 。 这 通常 需要 编写 代码 ， 但 这 是 
减少 收成 以 确保 产量 的 例子 。 




















了 解 存储 机 制 以 及 数据 存储 对 一 致 性 、 可 用 性 和 延 时 的 权衡 ， 可 以 学 习 到 数据 存储 的 “ 幕 
后 ”知识 ， 这 是 对 本 书 所 介绍 概念 的 补充 。 负 责 应 用 程序 性 能 和 功能 的 工程 师 和 架构 师 更 
关心 概念 属性 ， 而 运 维 人 员 和 数据 库 工 程 师 通常 更 关注 内 部 属性 (参见 表 11-2) ， 以 确保 
符合 设 定 的 SLO。 























表 11-2: 数据 存储 内 部 属性 总 结 





























属性 MySQL Cassandra MongoDB Neo4J 
存储 引擎 插件 ， 主 要 是 LSM 插件 ，B-tree 或 原生 图 存储 
B-tree LSM 
分 布 式 一 致 性 聚焦 一 致 性 最 终 一 致 性 ， 相 比 ”聚焦 一 致 性 聚焦 一 致 性 
可 用 性 较 次 要 
分 布 式 可 用 性 相 比 一 致 性 较 次 要 ”聚焦 可 用 性 相 比 一 致 性 较 次 要 ” 相 比 一 致 性 较 次 要 
延 时 基于 持久 性 调 优 写 优 化 基于 一 致 性 调 优 读 优 化 








11.3 “小 结 


本 童 介 绍 了 市 面 上 各 种 数据 存储 的 属性 。 对 于 考虑 新 应 用 程序 、 研 究 现 有 应 用 程序 ， 或 评 
佑 开发 团队 对 最 新 数据 存储 的 需求 ， 它 都 很 有 帮助 。 既 然 已 经 从 存储 进 阶 到 数据 存储 ， 自 
然 要 讨论 数据 架构 和 流水 线 。 
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数据 采 构 示例 





前 面 讨论 了 存储 引擎 和 单个 数据 存储 ， 本 章 拓 宽 视野 ， 看 看 这 些 数据 存储 如 何 适应 多 系统 
架构 。 只 涉及 一 种 数据 存储 的 架构 比较 少见 ， 实 际 中 会 采用 多 种 方式 来 保存 数据 ， 并 且 数 
据 有 多 个 消费 者 和 生产 者 。 本 章 将 介绍 一 个 简洁 的 架构 示例 ， 然 后 介绍 流行 的 数据 驱动 架 
构 ， 以 及 这 些 架 构 试 图 解决 的 问题 。 


本 章 介绍 如 何 有 效 地 使 用 这 些 组 件 ， 及 其 对 数据 服务 带 来 的 积极 影响 或 消极 影响 。 虽 然 不 
会 面面俱到 ， 但 可 以 概览 生态 系统 和 所 需 内 容 。 


12.1 架构 组 件 


架构 组 件 都 在 数据 库 可 靠 性 工程 师 的 日 常 职责 范围 之 内 。 可 以 忽略 数据 生态 系统 所 有 组 件 
的 时 代 已 成 历史 ， 如 今 所 有 这 些 组 件 都 对 数据 服务 的 可 用 性 、 数 据 完整 性 和 一 致 性 有 一 定 
影响 。 在 设计 服务 和 运 维 流程 时 ， 绝 对 不 能 忽略 它们 。 


12.1.1 前 端 数 据 库 

前 端 数 据 库 是 本 书 的 重要 内 容 。 应 用 程序 的 用 户 通 常 通过 数据 访问 层 查 询 、 插 入 和 修改 这 
类 数据 库 中 的 数据 。 过 去 许多 应 用 程序 的 功能 设计 并 没有 考虑 前 端 数 据 库 的 可 用 性 。 这 意 
味 着 ,一 旦 前 端 数 据 存 储 宕 机 或 响应 慢 到 影响 用 户 体验 ， 应 用 程序 就 会 变 得 不 可 用 。 
























































通常 把 此 类 系统 称 为 OLTP (on-line transactional processing， 联 机 事务 处 理 ) 系统 。 其 特 
点 是 快速 处 理 大 量 事务 ， 因 此 是 为 了 保证 高 速 查询 、 高 并 发 情况 下 的 数据 完整 性 ， 以 及 并 
发 事务 量 的 扩展 性 而 设计 的 。 用 户 希 望 所 有 数据 都 是 实时 的 ， 并 且 包 含 支撑 服务 的 所 有 细 
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节 。 每 个 用 户 或 事务 都 在 寻找 数据 的 一 个 子 集 ， 这 意味 着 查询 模式 倾向 于 在 大 型 集合 中 查 
找 和 访问 特定 的 小 数据 集 。 高 效 的 索引 、 隔 离 和 并 发 是 关键 ， 这 就 是 通常 由 关系 型 系统 实 
现 的 原因 。 


前 端 数据 存储 的 另 一 个 特点 是 ， 其 数据 主要 是 由 用 户 输入 的 。 还 有 一 些 面向 用 户 且 主 要 用 
于 分 析 的 数据 存储 ， 通 常 称 为 OLAP (on-line analytics processing， 联 机 分 析 处 理 ) ， 稍 后 


讨论 。 





























前 面 讨 论 了 大 部 分 数据 存储 的 各 种 特性 : 存储 结构 ， 数 据 模型 ，ACID/BASE 范式 ， 可 用 
性 、 一 致 性 以 及 延 时 之 间 的 权衡 。 此 外 ， 还 必须 考虑 整体 的 可 操作 性 ， 以 及 与 生态 系统 其 
他 部 分 之 间 的 集成 。 这 方面 需要 考虑 的 典型 特性 有 : 


。 低 延 时 的 写 人 和 查询 ， 
。 高 可 用 ， 
。 MTTR 较 短 ; 
。 在 线 可 扩展 ， 
易于 和 应 用 程序 及 运 维 服务 集成 。 


对 于 任何 单一 架构 而 言 ， 要 满足 这 些 需求 都 是 非常 困难 的 ， 在 架构 中 如 果 没 有 其 他 组 件 的 
协助 ， 几 乎 无 法 请 足 这 些 需求 ， 稍 后 会 阐述 这 一 点 。 
































12.1.2 ”数据 访问 层 

应 用 程序 通常 分 为 展现 层 和 业务 逻辑 层 。 数 据 访问 层 (data access layer，DAL) 位 于 业务 
逻辑 层 。 这 一 层 为 应 用 程序 访问 持久 化 数据 存储 提供 了 简便 的 方式 。 这 通常 表现 为 一 组 对 
象 ， 这 些 对 象 包 含 相 关 存 储 过 程 或 查询 的 属性 和 方法 。 这 种 抽象 向 软件 工程 师 隐 藏 了 数据 
存储 的 复杂 性 。 


数据 访问 层 的 一 个 例子 是 DAO。DAO 通过 将 应 用 程序 调用 映射 到 数据 库 ， 来 提供 数据 库 
访问 接口 。 通 过 单独 存放 持久 性 逻辑 ， 软 件 工程 师 可 以 单独 测试 数据 访问 ， 类 似 地 ， 通 过 
提供 mock 接口 而 非 数 据 库 ， 也 能 测试 应 用 程序 。 关 于 这 种 方法 ， 通 常 认为 需要 在 JDBC 
(Java database connectivity) 或 同等 模块 编写 更 多 代码 。 尽 管 如 此 ， 当 需要 通过 某 些 方法 满 
足 性 能 需求 时 ， 更 靠近 数据 库 可 以 提高 编码 效率 。 另 一 个 常 被 提 及 的 不 足 是 ， 这 种 方式 要 
求 开发 人 员 深 入 理解 schema。 但 我 们 认为 这 恰恰 是 优势 ， 开 发 人 员 对 该 schema 理解 得 越 
深入 ， 对 所 有 参与 者 越 有 利 。 









































数据 访问 层 的 另 一 个 示例 是 ORM。 尽 管 已 经 明确 表示 ， 出 于 多 种 原因 我 们 并 不 喜欢 ORM， 
但 它 也 有 一 些 长 处 。ORM 可 以 提供 很 多 特性 ， 包 括 缓存 和 审计 。 了 人 解 软件 工程 师 团队 使 用 
了 什么 ， 以 及 在 数据 访问 的 编码 和 优化 中 引入 了 哪些 灵活 性 或 约束 是 至 关 重 要 的 。 
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12.1.3 数据库 代理 

数据 库 代 理 层 位 于 应 用 程序 服务 器 和 前 端 数 据 存储 之 间 。 一 些 代理 位 于 网 络 传输 分 层 模型 
的 四 层 (L4) ， 并 利用 该 层 的 可 用 信息 来 决定 如 何 将 应 用 程序 服务 器 的 请 求 分 发 到 数据 库 
服务 器 。 这 些 信息 包括 数据 包 报 头 中 的 源 、 目 的 卫 地 址 以 及 端口 。 利 用 4 功能 可 以 根据 
特定 算法 分 配 流量 ， 但 无 法 将 负载 或 复制 延 时 等 其 他 因素 孝 虑 在 内 。 























四 层 和 七 层 


在 本 书 中 ， 层 指 的 是 OSI (open systems interconnection， 开 放 式 系统 互联 ) 
模型 的 层 。 该 模型 定义 了 网 络 的 标准 。 








层 (L7) 代理 在 网 络 传输 分 层 模型 的 最 高 层 〈 应 用 程序 层 ) 运行 ， 在 本 例 中 为 HTTP 


代理 可 以 访问 TCP 包 中 更 多 的 数据 ， 也 可 以 理解 数据 库 协 议和 协议 路 由 ， 并 且 可 








其 中 一 些 功 能 如 下 。 


“健康 检查 ”以 及 将 请 求 重 定 向 到 健康 的 服务 器 。 
。 读 写 分 离 ， 将 读 请 求 发 送 到 副本 节点 。 
重 写 查 询 ， 以 优化 无 法 在 代码 中 调 优 的 查询 。 
。 缓存 查询 结果 并 返回 。 
。 将 流量 重 定向 到 没有 滞后 的 副本 节点 。 
。 生成 查询 的 度量 值 。 
。 对 查询 类 型 或 主机 进行 过 着 。 























当然 ， 上 述 所 有 功能 都 是 有 代价 的 ， 这 里 的 代价 指 延 时 。 因 此 ， 使 用 四 层 代 理 还 是 七 层 代 
理 ， 取 决 于 团队 对 功能 和 延 时 的 权衡 。 通 过 代理 在 不 同 层 解 决 问题 ， 有 助 于 减轻 技术 债 的 
影响 ; 但是， 这 可 能 导致 技术 债 在 较 长 时 期 内 被 忽略 ， 从 而 导致 在 数据 库 方 面 应 用 程序 的 
可 移植 性 降低 。 















































1. 可 用 性 

代理 服务 器 的 主要 功能 之 一 ， 是 在 节点 故障 期 间 将 流量 重 定向 。 对 于 副本 市 点 ， 代 理 服 务 
器 可 以 进行 “健康 检查 ”， 并 从 服务 中 移 除 故 障 节点 。 在 主 节点 发 生 故 障 或 者 写 失 败 的 情 
况 下 ， 如 果 只 有 一 个 写 节 点 ， 代 理 服务 器 就 可 以 停止 服务 ， 以 便 安全 地 进行 故障 转移 。 无 
论 哪 种 情况 ， 使 用 代理 都 可 以 显著 缩短 故障 的 MTTR。 这 里 假设 代理 层 设置 为 具有 容错 
性 ， 否 则 只 是 新 增 了 一 个 故障 点 。 


2. 数据 完整 性 
如 果 代 理 只 是 简单 地 重 定向 流量 ， 则 对 数据 的 完整 性 几乎 没有 影响 。 然 而 ， 在 有 些 情况 
下 ， 代 理 可 能 会 提高 或 者 降低 数据 完整 性 。 在 异步 复制 环境 中 ， 七 层 代理 可 以 从 服务 中 移 
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除 任何 出 现 复 制 请 后 的 副本 节点 ， 这 就 减少 了 返回 陈旧 数据 的 可 能 。 


另外 ， 如 果 代 理 服务 器 缓存 数据 以 减少 延 时 并 提高 数据 库 节 点 的 处 理 能 力 ， 那 么 若 在 写 操 
作 之 后 未 能 使 缓存 中 的 数据 失效 ， 则 有 可 能 从 缓存 中 返回 陈旧 数据 。 稍 后 会 讨论 该 问题 以 
及 其 他 缓存 问题 。 


3. 扩展 性 

设计 良好 的 代理 层 可 以 极 大 地 增强 扩展 性 。 前 面 讨 论 了 多 种 扩展 模式 ， 其 中 包括 将 读 请 求 
分 发 到 多 个 副本 节点 。 如 果 不 使 用 代理 ， 则 只 能 进行 基本 的 负载 分 配 ， 但 这 种 方式 无 法 感 
知 副 本 节点 的 负载 及 复制 滞后 情况 ， 因 此 用 处 不 大 。 对 于 读 密集 型 工作 负载 ， 利 用 代理 分 
发 读 请 求 是 非常 有 效 的 方法 。 其 前提 是 ， 业 务 收益 可 观 ， 可 以 支撑 副本 节点 的 支出 ， 并 且 
已 经 建立 了 有 效 的 自动 化 方法 进行 管理 。 


代理 层 还 可 以 通过 减轻 负载 来 增强 扩展 性 。 许 多 数据 库 服务 器 遭遇 过 大 量 并 发 连接 的 情 
况 ， 在 这 种 场景 中 ， 代 理 层 可 以 充当 连接 队列 并 持 有 大 量 连 接 ， 但 只 人 允许 一 定数 量 的 连接 
执行 数据 库 操作 。 尽 管 并 发 延 时 增加 了 ， 这 似乎 是 反 直 觉 的 ， 但 限制 连接 的 数量 和 数据 库 
执行 的 操作 可 以 提高 吞吐 量 。 



























































4. 延 时 

当 在 事务 流程 中 添加 一 层 时 ， 延 时 是 重要 的 考虑 因素 。 四 层 代 理 增 加 的 延 时 较 低 ， 而 七 层 
代理 导致 的 延 时 很 高 。 可 以 通过 一 些 改进 方法 摊 还 此 类 延 时。 这 些 改进 方法 包括 缓存 经 常 
执行 的 查询 、 避 免 服 务 器 过 载 以 及 重 写 低 效 的 查询 。 权 衡 因应 用 程序 的 不 同 而 不 同 ， 需 要 
由 数据 库 可 靠 性 工程 师 、 架 构 师 和 软件 工程 师 一 起 做 出 决定 。 与 大 多 数 权衡 一 样 ， 应 简化 
功能 而 非 丰 富 功 能 (除非 必要 )。 简 单 性 和 较 低 的 延 时 对 组 织 非常 有 价值 。 


了 解 了 数据 访问 层 和 代理 层 一 一 帮助 应 用 程序 访问 数据 库 的 层 ， 接 下 来 讨论 在 数据 库 下 游 
运行 的 应 用 程序 ， 它 们 是 从 前 端 数据 库 中 消费 、 处 理 、 转 换 数 据 并 创造 价值 的 系统 。 


12.1.4 事件 与 消息 系统 
数据 不 是 孤立 存在 的 。 由 于 事务 发 生 在 主 库 中 ， 因 此 在 一 个 事务 完成 之 后 ， 必 须 执行 其 他 
许多 操作 。 换 言 之 ， 这 些 事务 如 同事 件 。 事 务 发 生 之 后 可 能 采取 的 操作 的 示例 如 下 : 


。 数据 必须 进入 下 游 分 析 程 序 和 数据 仓库 中 ， 
。 必须 履行 订单 ， 
。 其 诈 检 测 必 须 审查 交易 ， 
。 数据 必须 上 传 到 缓存 或 CDN 中 ， 
个 性 化 选项 必须 重新 校准 和 发 布 。 


以 上 是 事务 完成 后 可 能 触发 操作 的 几 个 示例 。 构 建 事 件 和 消息 系统 是 为 了 利用 数据 存储 中 
的 数据 并 发 布 事 件 ， 供 下 游 流程 处 理 。 消 息 和 事件 软件 可 通过 异步 消息 在 应 用 程序 之 间 共 
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享 数据 。 这 些 系 统 基 于 在 数据 存储 区 中 检测 到 的 信息 生成 消息 ， 其 他 应 用 程序 会 订阅 并 消 


费 这 些 消息 。 








许多 应 用 程序 支持 消息 发 布 和 订阅 等 功能 。 在 撰写 本 文 时 ， 最 受 欢 迎 的 是 Apache Kafka， 
主要 用 于 分 布 式 日 志 。Kafka 在 生产 者 、 消 费 者 和 topic 级 别 都 支持 大 规模 水 平 扩展 。 其 他 
系统 有 RabbitMQ、 亚 马 逊 Kinesis 和 ActiveMQ。 简 单 而 言 ， 这 是 一 个 提取 、 转 换 和 加 载 
过 程 ， 持 续 或 定期 轮 询 数据 存储 中 的 新 数据 。 


1. 可 用 性 

事件 系统 可 能 会 给 数据 存储 的 可 用 性 带 来 积极 影响 。 具 体 而 言 ， 将 事件 及 对 事件 的 处 理 从 
数据 存储 中 剥离 出 来 ， 能 从 数据 存储 中 消除 一 类 工作 负载 。 这 会 降低 资源 利用 率 和 并 发 
量 ， 进 而 影响 核心 服务 的 可 用 性 。 这 也 意味 着 即使 在 高 峰 期 间 也 可 以 处 理事 件 ， 因 为 不 必 
担心 干扰 生产 环境 。 


2. 数据 完整 性 

在 不 同系 统 之 间 移 动 数据 面临 的 最 大 风险 之 一 是 ， 可 能 导致 数据 损坏 和 丢失 。 在 有 多 个 数 
据 源 和 数据 消费 者 的 分 布 式 消息 总 线 中 ， 数 据 验 证 面临 严峻 挑战 。 对 于 数据 不 能 丢失 的 情 
形 ， 消 费 者 必须 将 某 种 形式 的 副本 写 回 到 总 线 中 ; 然后， 进行 审计 的 消费 者 可 以 读 取 这 些 
消息 并 将 其 与 原始 消息 进行 比较 。 与 之 前 讲 过 的 数据 验证 流水 线 一 样 ， 这 需要 大 量 编码 和 
资源 。 对 于 不 能 丢失 的 数据 而 言 ， 这 是 绝对 必要 的 。 当 然 ， 对 于 能 够 容忍 一 定 程度 丢失 的 
数据 而 言 ， 采 样 校 验 是 可 行 的 。 如 果 检 测 到 数据 丢失 ， 则 需要 通过 某 种 方法 通知 下 游 进程 
重新 处 理 特定 消息 ， 有 具体 措施 取决 于 消费 者 。 


同样 ， 重 要 的 是 验证 事件 或 消息 的 存储 机 制 能 否 保证 消息 在 生命 周期 内 的 持久 性 。 如 果 数 
据 可 能 丢失 ， 则 存在 数据 完整 性 问题 ， 与 之 相反 的 是 数据 重复 。 如 果 存 在 数据 重复 ， 则 会 
导致 事件 被 重复 消费 。 如 果 不 能 保证 处 理 是 寡 等 的 《事件 重复 消费 的 最 终结 果 一 致 )， 那 
么 最 好 选用 可 以 通过 索引 来 管理 重复 数据 的 数据 存储 。 


3. 扩展 性 

如 前 所 述 ， 通 过 将 事件 及 其 后 续 处 理 从 前 端 数据 存储 中 分 离 出 来 ， 能 减少 数据 库 的 总 体 负 
载 。 这 就 是 工作 负载 分 区 ， 之 前 介绍 扩展 模式 时 讨论 过 ， 这 是 可 扩展 路 径 上 的 一 步 。 通 过 
解 而 工作 负载 消除 了 多 模式 工作 负载 的 干扰 。 


4. 延 时 

将 事件 处 理 从 前 端 数据 存储 中 分 离 出 来 ， 可 以 显著 减少 潜在 冲突 ， 进 而 减少 应 用 程序 的 延 
时 。 但 是 ， 将 事件 从 前 端 数据 存储 发 送 到 事件 处 理 系 统 所 花费 的 时 间 ， 是 处 理 这 些 事件 的 
额外 延 时 。 该 过 程 的 异步 特点 意味 着 应 用 程序 必须 能 容忍 处 理 中 的 延 时 。 


至 此 ， 介 绍 了 如 何 访问 数据 存储 ， 以 及 在 前 端 数据 存储 和 下 游 消 费 者 之 间 打 通 数据 ， 下 天 
看 看 其 中 一 些 下 游 数 据 消费 者 。 
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12.1.5 缓存 和 内 存 存 储 

与 内 存 相 比 ， 磁 盘 访 问 速 度 慢 得 令 人 难以 置信 。 这 就 是 为 什么 应 尽量 将 所 有 数据 集 都 放 入 
内 存 (例如 缓冲 区 缓存 ) 中 ， 而 不 是 直接 从 磁盘 读 取 。 话 虽 如 此 ， 对 于 许多 环境 而 言 ， 没 
有 那么 多 预算 将 数据 集 都 缓存 到 内 存 中 。 对 于 对 数据 存储 的 缓存 而 言 太 大 的 数据 ， 不 妨 芳 
虑 使 用 缓存 系统 和 内 存 数据 存储 。 


缓存 系统 和 内 存 数据 存储 非常 相似 。 它 们 的 功能 是 将 数据 存储 在 RAM 而 非 磁盘 上 ， 从 而 
提供 快速 的 读 取 访 问 。 如 果 数 据 不 常 更 改 ， 并 且 可 以 容忍 内 存 数据 存储 的 易 失 性 ， 那 么 这 
可 能 是 一 个 极 好 的 选择 。 许 多 内 存 数据 存储 通过 后 台 进 程 异步 地 将 数据 写 入 磁盘 以 保证 持 
入 性 。 但 这 带 来 了 很 大 的 风险 : 数据 在 保存 之 前 ， 因 发 生 崩溃 而 丢失 。 


内 存 数据 存储 通常 上 共有 其 他 功能 ， 例 如 高 级 数据 类 型 、 复 制 和 故障 转移 。 较 新 的 内 存 存储 
还 针对 内 存 访问 做 了 优化 ， 其 至 比 关系 系 统 中 全 部 数据 集 都 在 缓存 中 还 要 快 得 多 。 数 据 库 
缓存 仍然 要 验证 数据 是 否 为 最 新 的 ， 还 要 管理 并 发 和 ACID 需求 。 因 此 ， 内 存 数据 存储 对 
极 低 延 时 的 系统 来 说 可 能 更 适合 。 


有 3 种 填充 缓存 的 方法 。 第 1 种 方法 是 将 数据 写 入 关系 型 数据 库 之 类 的 持久 性 数据 存储 之 
后 ， 将 其 放 入 缓存 中 。 第 2 种 方法 通过 双 写 同时 写 入 缓存 和 持久 性 存储 。 由 于 其 中 可 能 会 
有 一 个 失败 ， 因 此 该 方法 非常 不 可 靠 ， 想 要 保证 双 写 的 可 靠 性 ， 需 要 高 郧 的 开销 ， 包 括 
写 后 验证 和 两 阶段 提交 。 第 3 种 方法 是 先 写 缓存 ， 然 后 将 其 异步 地 写 入 磁盘， 也 称 直 写 
(write through) 方法 。 下 面 讨论 每 种 方法 是 如 何 影响 数据 库 生态 系统 的 。 























1. 可 用 性 

缓存 会 给 可 用 性 带 来 积极 影响 ， 即 使 在 数据 存储 发 生 故 障 的 情况 下 ， 仍 可 以 处 理 读 请 求 。 
对 于 读 密集 型 应 用 程序 ， 这 可 能 非常 有 价值 。 此 外 ， 尽 管 缓存 系统 可 以 改善 容量 或 延 时 ， 
但 在 缓存 系统 发 生 故障 时 ， 数 据 存储 无 法 承受 相应 的 流量 ， 因 此 缓存 层 的 可 用 性 与 数据 存 
储 的 可 用 性 同样 重要 ， 这 意味 着 管理 的 复杂 度 是 原来 的 两 倍 。 











另 一 个 主要 问题 是 惊 群 效应 (thundering herd)。 在 惊 群 效应 下 ， 所 有 缓存 服务 器 都 非常 频 
党 地 访问 某 些 数据 ， 这 是 由 于 写 操作 或 超时 导致 的 。 在 这 种 情况 下 ， 大 量 服务 器 同时 将 读 
取 请 求 发 送 到 持久 性 存储 ， 以 便 刷 新 缓存 。 这 可 能 会 导致 并 发 元 余 请 求 ， 从 而 造成 持久 性 
存储 过 载 ， 进 而 可 能 导致 缓存 或 持久 层 无 法 提供 读 服 务 。 

应 对 惊 群 效应 有 多 种 方法 。 一 种 简单 的 方法 是 确保 缓存 超时 彼此 偏 移 ， 但 这 种 方法 不 可 扩 
展 。 增 加 代理 缓存 层 来 限制 对 数据 存储 的 直接 访问 ， 该 方法 更 易于 管理 。 此 时 ， 有 一 个 持 
入 层 、 一 个 代理 缓存 层 和 一 个 缓存 层 。 显 然 ， 扩 展 性 可 能 很 快 会 变 得 非常 复杂 。 

2. 数据 完整 性 

在 缓存 系统 中 ， 数 据 完整 性 可 能 是 非常 玉手 的 问题 。 由 于 缓存 的 数据 通常 是 不 断 变 化 的 数 
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据 的 某 种 静态 副本 ， 因 此 必须 在 数据 刷新 频率 与 对 持久 性 存储 的 影响 之 间 做 权衡 ， 来 应 对 
可 能 读 取 到 陈旧 数据 的 情况 。 











在 保存 数据 之 后 再 存 入 缓存 时 ， 必 须 应 对 读 取 数 据 可 能 过 期 的 情形 。 这 种 方法 适合 很 少 需 
要 失效 和 重新 缓存 的 相对 静态 的 数据 ， 例 如 地 理 编 码 、 应 用 程序 元 数据 以 及 只 读 内 容 〈 比 
如 新 闻 文 章 或 用 户 生成 的 内 容 )。 


同时 将 数据 写 入 持久 性 存储 和 缓存 ， 消 除了 读 取 过 期 数据 的 可 能 ， 但 仍 需要 验证 数据 是 否 
过 期 。 在 写 操作 之 后 立即 (此 后 定期 ) 进行 验证 ， 以 确保 向 消费 者 提供 正确 的 数据 。 


最 后 ， 当 先 把 数据 写 和 缓存， 再 写 和 持久 性 存储 时 ， 必 须 能 够 重新 构建 写 请 求 ， 以 应 对 在 
将 写 请 求 转发 给 持久 性 层 之 前 缓存 系统 发 生 崩 溃 的 情况 。 记 录 所 有 写 请 求 ， 并 将 其 视 为 可 
以 触发 验证 代码 的 事件 ， 是 一 种 可 行 的 方法 。 这 种 方法 会 在 架构 层面 增加 复杂 性 (许多 数 
据 存储 库 内 置 了 相关 机 制 )。 直 写 方式 在 验证 和 维护 跨 数据 存储 完整 性 方面 带 来 了 复杂 性 ， 
因此 必须 仔细 考虑 这 样 做 是 否 值得 。 


3. 扩展 性 

使 用 缓存 和 内 存 数据 存储 的 主要 原因 之 一 是 提升 工作 负载 的 读 性 能 。 因 此 ， 添 加 缓存 层 是 
以 增加 环境 复杂 性 为 代价 而 换取 更 高 的 扩展 性 。 但 是 ， 如 前 所 述 ， 现 在 正在 建立 对 该 层 的 
依赖 关系 ， 以 便 符合 SLO。 如 果 缓 存 服务 器 发 生 故障 、 失 效 或 损坏 ， 则 持久 性 存储 难以 支 
撑 应 用 程序 的 读 取 压力 。 















































4. 延 时 

除了 扩展 性 ， 使 用 缓存 层 的 另 一 个 原因 是 减少 读 延 时 。 这 是 缓存 或 内 存 技术 的 一 种 典型 用 
法 ;但 是 如 果 缓 存 服务 器 发 生 故障 ， 在 没有 缓存 服务 器 的 情况 下 ， 将 无 法 确定 持久 存储 层 
能 否 支 撑 当 时 的 流量 。 所 以 ， 需 要 定期 测试 ， 测 试 的 读 流 量 会 绕 过 测试 环境 的 缓存 ， 以 了 
解 持久 层 如 何 同时 处 理 读 写 工作 负载 。 如 果 生 产 环 境 因 缓存 故障 而 导致 读 取 持久 性 存储 ， 
就 需要 在 生产 环境 中 测试 此 类 故障 场景 。 


缓存 和 内 存 数据 存储 是 许多 流行 的 数据 驱动 架构 的 可 靠 组 成 部 分 。 它 们 可 以 和 事件 驱动 的 
中 间 件 很 好 地 结合 ， 并 增强 应 用 程序 的 扩展 性 和 性 能 。 话 虽 如 此 ， 在 运营 支出 、 故 障 风 
险 和 数据 完整 性 风险 方面 ， 又 需要 多 管理 一 层 。 这 不 容 忽 视 且 经 常 发 生 ， 因 为 这 是 普遍 
采用 的 一 各 方案。 数据库 可 靠 性 工程 师 的 职责 是 确保 组 织 认真 对 待 该 子 系统 的 可 用 性 和 数 
据 完 整 性 。 


这 些 组 件 在 数据 存储 的 可 用 性 、 扩 展 性 和 功能 增强 中 都 起 着 关键 作用 。 但 是 ， 每 一 项 都 增 
加 了 架构 的 复杂 性 、 操 作 依 赖 性 、 数 据 丢 失 的 风险 和 数据 完整 性 问题 。 因 此 ， 在 做 架构 相 
关 决 策 时 ， 需 要 权衡 折 中 。 前 面 研究 了 一 些 单一 组 件 ， 接 下 来 介绍 架构 ， 它 将 数据 从 前 端 
产品 传 到 数据 存储 ， 再 到 下 游 服 务 。 
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12.2 ”数据 染 构 

本 章 中 的 数据 架构 是 关于 数据 驱动 系统 的 示例 ， 这 些 系 统 接收 、 处 理 和 传递 数据 。 前 面 介 
绍 了 基本 原理 、 用 法 和 权衡 ， 旨 在 为 本 书 中 一 直 讨 论 的 数据 存储 和 相关 系统 提供 真实 场 
景 。 当 然 ， 这 些 仅仅 是 示例 ， 实 际 应 用 会 因 每 个 组 织 的 需求 而 有 很 大 差异 。 























12.2.1 Lambda 和 Kappa 

Lambda 是 一 种 实时 大 数据 架构 ， 已 被 许多 组 织 采 用 。Kappa 是 一 种 响应 模式 ， 追 求 简洁 性 
并 采用 较 新 的 软件 技术 。 接 下 来 首先 介绍 基本 架构 ， 然 后 讨论 各 种 组 合 。 

1. Lambda 架构 

Lambda 架构 用 于 快速 处 理 大 量 数据 ， 以 满足 近 实 时 的 请 求 ， 还 支持 长 时 间 运 行 的 计算 。 
Lambda 由 3 层 组 成 : 批 处 理 层 、 实 时 处 理 层 和 查询 层 ， 如 图 12-1 所 示 。 
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12-1: Lambda 架构 


如 果 将 数据 写 入 前 端 数据 存储 ， 则 可 以 使 用 分 布 式 日 志 系统 〈 例 如 Kafka)， 为 Lambda 处 
理 层 生 成 不 可 变 的 分 布 式 日 志 。 一 些 数据 可 能 不 经 过 数据 存储 而 直接 写 入 日志 服 务 ， 处 理 
层 会 处 理 此 类 数据 。 


Lambda 有 两 个 处 理 层 ， 因 此 可 以 快速 处 理 来 支持 快速 查询 ， 还 可 以 进行 全 面 、 准 确 的 计 
算 。 批 处 理 层 通常 由 MapReduce 实现 ， 其 延 时 无 法 满足 实时 或 近 实 时 的 查询 。 批 处 理 层 的 
典型 数据 存储 是 分 布 式 文件 系统 ， 例 如 Apache Hadoop ， 然 后 MapReduce 从 主 数据 集 创建 
批 处 理 视图 。 
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实时 处 理 层 可 以 快速 处 理 数据 流 ， 不 需要 完整 的 数据 或 100% 的 准确 性 。 该 层 是 弥补 批 处 
理 层 带 后 的 增 量 机 制 ， 可 以 给 应 用 程序 提供 最 新 数据 ， 这 是 数据 质量 与 延 时 的 一 个 折 中 方 
案 。 批 处 理 完 成 后 ， 实 时 处 理 层 中 的 数据 将 替换 为 批 处 理 层 中 的 数据 。 该 层 通常 由 Apache 
Storm 或 Spark 之 类 的 流 式 技术 实现 ， 该 技术 的 后 端 存储 一 般 采 用 低 延 时 数据 存储 ， 比 如 
Apache Cassandra。 























最 后 ， 服 务 层 将 结果 数据 返回 给 应 用 程序 ， 包 括 从 批 处 理 层 创建 的 批 处 理 视图 ， 以 及 确保 
低 延 时 查询 的 相关 索引 。 该 层 通常 采用 HBase、Cassandra、Apache Druid 或 其 他 类 似 的 数 
据 存储 。 


除了 实时 处 理 层 带 来 的 低 延 时 ， 该 架构 还 有 其 他 优势 ， 尤 其 是 主 数据 集 的 输入 保持 不 变 
这 样 在 代码 和 业务 规则 更 改 时 ， 可 以 重新 处 理 数据 。 


该 架构 的 最 大 缺点 是 ， 需 要 维护 两 个 代码 库 ， 一 个 用 于 实时 处 理 ， 另 一 个 用 于 批 处 理 。 如 果 
两 个 代码 库 不 总 是 同步 的 ， 维 护 成 本 和 数据 完整 性 的 风险 将 增加 。 更 优秀 的 框架 已 经 问世 ， 
可 以 将 一 份 代码 同时 编译 为 实时 处 理 层 和 批 处 理 层 ， 另 外 ， 操 作 和 维护 两 个 系统 也 很 复杂 。 


Lambda 架构 的 另 一 个 不 足 是 ， 自 该 架构 诞生 以 来 ， 实 时 处 理 已 非常 成 熟 了 。 较 新 的 流 式 
处 理 系 统 可 以 在 不 牺牲 延 时 的 情况 下 保证 批 处 理 的 语义 。 





























2. Kappa 架构 

Jay Kreps 在 LinkedIn 时 首次 阐述 了 Kappa 架构 的 概念 〈 见 图 12-2)。 在 Lambda 架构 中 ， 
采用 关系 型 数据 库 或 NoSQL 数据 库 持久 化 数据 。 在 Kappa 架构 中 ， 数 据 存储 是 只 追加 的 
不 可 变 日 志 ， 例 如 Kafka。 实 时 处 理 层 的 流 经 过 计算 系统 ， 并 持久 化 到 其 他 存储 系统 中 。 
Kappa 架构 消除 了 批 处 理 系统 ， 因 为 流 式 处 理 系统 可 以 处 理 所 有 转换 和 计算 。 
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12-2: Kappa 架构 
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Kappa 的 最 大 价值 之 一 是 ， 消 除了 批 处 理 层 ， 降 低 了 Lambda 架构 的 复杂 性 和 运 维 成 本 ， 
还 缓解 了 迁移 和 数据 重组 的 痛 点 。 想 要 重新 处 理 数据 时 ， 就 可 以 重新 处 理 、 测 试 并 切换 。 














Lambda 架构 和 Kappa 架构 是 实时 处 理 和 呈现 大 数据 的 模式 示例 。 下 面 介绍 一 些 由 数据 驱 
动 的 架构 模式 ， 这 些 模式 是 应 用 程序 直接 使 用 数据 存储 这 种 传统 方法 的 替代 方法 。 

















12.2.2 ”事件 溯源 


事件 渊源 是 一 种 架构 模式 ， 颠 覆 了 检索 和 插入 数据 的 方式 。 数 据 存储 抽象 层 的 地 位 因此 下 
降 ， 从 而 为 创建 和 重建 数据 视图 提供 了 灵活 性 。 








在 事件 溯源 架构 模式 中 ， 对 实体 的 更 改 将 保存 为 一 系列 状态 的 变更 。 当 状态 变更 时 ， 将 新 
事件 添加 到 日 志 中 。 在 传统 的 数据 存储 中 ， 变 更 是 以 当前 状态 替换 之 前 的 状态 ， 因 此 有 具有 
破坏 性 。 事 件 湖 源 架构 模式 中 记录 了 所 有 变更 ， 应 用 程序 可 以 通过 重 放 日 志 中 的 事件 重建 
当前 状态 。 这 种 数据 存储 称 为 事件 存储 。 


事件 溯源 不 仅 是 记录 变更 的 日 志 ， 也 是 一 种 数据 建 模 新 模式 。 通 过 存储 低级 别 的 数据 ( 事 
件 而 不 是 可 以 被 覆盖 的 状态 值 )， 事 件 询 源 扩充 了 传统 存储 ， 例 如 关系 型 数据 库 或 键 值 数 
据 库 。 


事件 存储 不 仅 充 当 事 件 的 分 布 式 日 志和 记录 数据 库 ， 还 充当 消息 系统 。 如 前 所 述 ， 下 游 流 程 
和 工作 流 可 以 订阅 事件 。 当 把 事件 保存 在 事件 存储 中 时 ， 该 事件 将 转发 给 所 有 感 兴趣 的 订阅 
者 。 可 以 采用 关系 型 数据 库 、NoSQL 数据 库 或 在 分 布 式 日 志 (例如 Kafka) 中 存储 事件 。 黄 
至 还 有 一 个 名 为 EventStore (一 个 开源 项 目 ) 的 事件 存储 ， 用 于 存储 仅 追 加 的 不 可 变 记 录 。 
在 很 大 程度 上 ， 选 择 取决 于 变更 频率 ， 以 及 快照 和 压缩 之 前 事件 存储 所 需 的 时 长 。 


事件 溯源 有 许多 优点 。 与 带 来 破坏 性 的 变更 不 同 ， 审 计 实 体 的 生命 周期 将 非常 简单 ， 调 试 
和 测试 也 变 得 更 容易 。 采 用 事件 存储 ， 即 使 有 人 不 小 心 删除 了 表 或 大 块 数据 ， 也 可 以 使 用 
分 布 式 日 志 根据 丢失 的 特定 实体 ， 大 规模 地 重建 数据 或 恢复 具体 丢失 的 实体 。 但 是 ， 仍 然 
存在 挑战 ， 尤 其 是 管理 schema 的 架构 演变 可 能 会 影响 存储 的 已 有 事件 。 在 重 放 事 件 流 时 ， 
外 部 依赖 关系 也 可 能 很 难 重建 。 





















































因为 事件 询 源 的 诸多 优点 ， 即 使 在 使 用 传统 的 数据 存储 而 不 是 事件 存储 的 情况 下 ， 很 多 应 
用 程序 依然 实现 了 它 。 随 着 时 间 的 推移 ， 可 以 通过 API 提供 完整 的 访问 历史 ， 进 行 审计 、 
重建 和 不 同 的 转换 ， 好 处 巨大 。 





12.2.3 CQRS 

从 事件 存储 作为 辅助 存储 ， 到 作为 核心 数据 存储 层 ， 是 自然 的 演变 ， 这 就 是 命令 查询 责任 
分 离 (command-query-responsibility segregation，CQRS)。CQRS 的 驱动 力 是 使 用 多 个 模型 
或 视图 表示 相同 的 数据 。 对 不 同 模型 的 需求 源 自 这 样 一 种 想法 : 不 同 领 域 有 不 同 的 目标 ， 
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并 且 这 些 目标 需要 不 同 的 上 下 文 、 语 言 以 及 最 终 的 数据 视图 。 


这 可 以 通过 事件 询 源 实现 。 通 过 状态 更 改 事件 的 分 布 式 日 志 ， 订 阅 事件 的 工作 进程 可 以 构 
建 有 效 的 视图 。CQRS 还 具有 其 他 一 些 有 用 的 特性 ， 不 仅 可 以 构建 新 视图 ， 还 可 以 针对 不 
同 的 查询 模式 ， 通 过 不 同 的 数据 存储 优化 查询 。 举 例 来 说 ， 如 果 搜 索 的 是 文本 数据 ， 则 将 
其 存 入 像 Elasticsearch 之 类 的 搜索 存储 中 ， 为 搜索 应 用 程序 创建 优化 的 视图 ， 还 可 以 为 每 
个 聚合 创建 独立 的 扩 缩 容 模 式 。 通 过 针对 查询 进行 了 读 优 化 的 数据 存储 ， 以 及 针对 写 操作 
进行 了 优化 的 只 追加 日 志 ， 可 以 使 用 CQRS 高 效 地 分 配 和 优化 工作 负载 。 


但 是 ， 该 架构 中 可 能 存在 不 必要 的 复杂 性 。 可 以 仅 分 离 一 个 视图 的 数据 ， 也 可 以 过 度 分 离 
视图 。 仅 关注 实际 需要 多 模型 方法 的 数据 ， 对 于 降低 复杂 性 很 重要 。 


确保 写 操作 或 命令 返回 足够 的 数据 ， 以 有 效 地 找到 其 模型 的 新 版 本 ， 有 助 于 长 期 降低 应 用 
程序 的 复杂 性 。 如 果 命 令 返回 成 功 / 失败 、 os 
帮助 。 甚 至 可 以 将 模型 的 数据 作为 命令 的 一 部 分 返回 ， 这 可 能 并 不 完全 符合 CQRS 理论 ， 
但 可 以 让 大 家 的 工作 变 得 轻松 。 


无 须 将 CQRS 与 事件 湖 产 相 结合 。 事 件 湖 产 作为 核心 数据 存储 机 制 非常 复杂 ， 应 确保 这 种 
方式 仅 用 于 表示 有 一 系列 状态 更 改 的 数据 。 可 以 使 用 视图 、 数 据 库 标志 、 外 部 逻辑 ， 或 其 
他 任何 比 事件 济源 更 简单 的 方式 实现 CQRS。 


这 只 是 数据 驱动 架构 的 示例 ， 你 可 能 正在 使 用 或 设计 此 类 架构 。 关 键 是 明确 数据 的 生命 周 


期 并 找到 有 效 的 存储 和 传输 方式 ， 以 便 将 数据 发 送 到 系统 的 各 个 组 件 。 可 以 以 多 种 方式 
表示 数据 。 当 今 大 多 数组 织 最 终 需 要 实现 多 种 表示 模型 ， 同 时 保持 核心 数据 集 的 完整 性 。 







































































1 和 3， 小 个 


本 章 介绍 了 在 数据 存储 中 增强 功能 、 可 用 性 、 扩 展 性 和 性 能 的 方法 。 所 述 复杂 架构 有 很 多 
应 用 场景 ,但 这 些 架 构 的 维护 成 本 很 高 。 当 然 ， 最 糟糕 的 情况 是 数据 的 完整 性 受 损 。 在 你 
的 整个 职业 生涯 中 ， 这 是 很 严肃 的 问题 。 


第 13 章 将 讨论 如 何 继续 发 展 自己 的 事业 ， 并 针对 如 何在 组 织 内 部 创建 数据 库 可 靠 性 文化 
提供 一 些 指 导 意 见 。 
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第 13 章 


数据 库 可 靠 性 工程 师 行为 指南 





数据 库 工程 领域 这 些 年 的 变化 是 贯穿 本 书 的 话题 。 在 此 背景 下 ， 我 们 讨论 了 数据 库 可 靠 性 
工程 师 必 须 参 与 的 运 维和 开发 工作 ， 以 及 如 何 开展 这 些 工 作 。 下 面 探讨 当前 存储 、 复 制 、 
数据 存储 和 架构 的 生态 系统 (至 少 是 一 个 合理 的 子 集 )， 以 拓展 思维 和 知识 。 








如 头衔 所 示 ， 针 对 数据 库 可 靠 性 工程 师 所 做 的 所 有 事情 都 需要 强调 可 靠 性 ， 因 为 数据 库 不 
得 存在 风险 和 混乱 。 如 今 ， 在 数据 库 可 靠 性 工程 师 的 日 常 工作 中 司空 见 惯 的 技术 一 一 虚拟 
化 、 基 础 设施 即 代码 、 容 器 、 无 服务 器 计算 和 分 布 式 系统 一 一 都 源 自 可 以 容忍 风险 的 计算 
领域 。 现 在 这 些 基础 设施 无 处 不 在 ， 因 而 作为 组 织 最 宝贵 资源 (数据 ) 的 管理 者 ， 数 据 库 
可 靠 性 工作 师 需 要 找到 将 数据 库 融 入 这 些 范式 的 途径 。 

这 份 工 作 很 党 高 。 当 谈论 数据 时 ， 任 何 组 织 内 部 都 只 能 容忍 极 低 的 风险 。 因 此 ， 如 何 将 这 
些 概念 引入 组 织 的 其 他 部 门 ， 或 者 在 其 他 人 这 样 做 时 如 何 回应 ， 是 数据 库 可 靠 性 工程 师 的 
工作 准则 和 职责 。 拥 有 愿景 和 意志 还 不 够 ， 必 须 找到 实现 愿景 的 方法 。 





















































本 章 讨论 如 何在 组 织 内 培养 数据 库 可 靠 性 文化 ， 以 及 如 何 立 足 于 数据 库 可 靠 性 工程 参与 组 
组 内 部 的 各 种 事务 。 


13.1 数据 库 可 靠 性 工程 文化 


数据 库 可 靠 性 工程 的 文化 是 怎样 的 ? 如 何 推广 ”可 靠 性 工程 文化 通常 具有 以 下 





k 性 ; 
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。 就 事 论 事 地 进行 反思 ， 
。 将 重复 性 工作 自动 化 ; 
。 结构 化 与 合理 的 决策 。 
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这 一 切 都 是 有 意义 的 ， 运 维 团队 或 网 站 可 靠 性 工程 师 团 队 的 每 个 人 都 应 为 此 不 断 努 力 。 但 
是 ， 作 为 〈 或 想 成 为 ) 数据 库 可 靠 性 工程 师 ， 应 该 怎么 做 呢 ? 下 面 探讨 如 何 引 入 可 靠 性 文 
化 ， 以 及 如 何 将 数据 库 可 靠 性 工程 师 的 专业 知识 传播 到 组 织 的 其 他 部 门 。 









































13.1.1 突破 障碍 

与 其 他 团队 (有 数据 存储 需求 的 团队 ) 联系 不 密切 的 数据 库 管理 员 ， 根 本 不 会 成 功 。 为 了 
积极 地 发 挥 作用 ， 相 比 传统 角色 ， 我 们 需要 在 更 高 的 抽象 层次 上 成 为 活跃 的 团队 成 员 和 合 
作 伙 伴 。 这 样 做 存在 固有 的 挑战 ， 因 为 数据 库 相 关 职 位 的 人 员 通 常 不 多 。 本 书 一 直 强 调 ， 
数据 库 相 关 人 员 根 本 无 法 扩展 到 与 开发 人 员 和 运 维 工程 师 相 当 的 数量 。 












































在 某 些 方面 ， 数据库 可 靠 性 工程 师 可 以 证 明 自 己 是 跨 职能 部 门 的 高 效能 员工 。 数 据 库 可 靠 
性 工程 师 参 与 跨 职能 工作 时 应 该 怀抱 目标 一 一 致力 于 提供 专业 知识 并 消除 资源 方面 的 限 
制 ， 或 者 更 多 地 了 解 其 他 职能 ， 以 提高 在 组 织 中 的 运作 能 


1. 架构 流程 

考 良 置疑， 那些 拥有 深厚 的 数据 库 专 业 知识 的 人 ， 应 该 更 多 地 参与 架构 过 程 的 所 有 阶段 ， 
尤其 是 设计 阶段 。 在 选择 数据 存储 时 ， 数 据 库 可 靠 性 工程 师 可 以 提供 有 价值 的 数据 ， 尤 其 
是 已 经 在 生产 中 经 过 大 量 测试 和 检验 的 数据 存储 。 正 如 第 7 章 和 第 11 章 所 述 ， 数 据 库 可 
靠 性 工程 师 负 责 审查 组 织 将 使 用 的 数据 存储 。 


在 需要 自助 服务 来 构建 和 部 署 服务 的 大 型 组 织 中 ， 数 据 库 可 靠 性 工程 师 有 权 决 定 哪些 存 
储 服务 采用 自助 服务 。 通 过 与 其 他 技术 部 门 合作 ， 数 据 库 可 靠 性 工程 师 可 以 提供 经 过 批 
准 的 服务 ， 这 些 服务 已 经 针对 边缘 情况 、 扩 展 性 、 可 靠 性 和 数据 完整 性 进行 了 全 面 测试 。 
有 时 ， 除 了 已 批准 的 服务 ， 所 有 部 门 都 可 以 构建 和 部 署 服务 ， 但 这 样 做 必须 接受 不 同 的 
SLA， 示 例如 下 。 


口 一 级 存储 
在 生产 环境 中 对 核心 服务 进行 了 测试 。 采 用 自助 服务 模式 ， 意 味 着 运 维 人 员 和 数据 库 可 
靠 性 工程 师 能 为 升级 提供 15 分 钟 的 Sevl 响应 SLA， 并 在 可 用 性 、 延 时 、 吞 吐 量 和 持 
久 性 方面 保证 最 高 的 SLA。 
















































































口 二 级 存储 
在 生产 环境 中 对 非 关键 服务 进行 了 测试 。 采 用 自助 服务 模式 ， 意 味 着 运 维 人 员 和 数据 库 
可 靠 性 工程 师 可 以 提供 30 分 钟 的 Sevl 响应 SLA， 并 在 可 用 性 、 延 时 、 吞 吐 量 和 持久 
性 方面 保证 一 定 的 SLO。 




















口 三 级 存储 
未 经 生产 测试 。 对 运 维 人 员 和 数据 库 可 靠 性 工程 师 而 言 是 尽力 而 为 的 ， 不 保证 SLO， 
必须 得 到 软件 工程 团队 的 全 力 支持 。 
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如 有 果 组 织 不 支持 此 类 自助 服务 平台 ， 则 数据 库 可 靠 性 工程 师 必 须 更 加 努力 ， 确 保 每 个 团队 
都 知道 在 评估 数据 存储 和 架构 时 所 用 的 方法 以 及 这 样 做 所 带 来 的 价值 。 尽 管 过 早 优化 是 有 
风险 的 ， 但 数据 库 可 靠 性 工程 师 的 职责 之 一 ， 就 是 确保 数据 存储 的 架构 决策 在 将 来 达到 系 
统 的 扩展 抛 点 时 不 会 阻碍 服务 。 


在 许多 组 织 中 ， 这 是 从 技术 项 目的 必要 清单 开始 的 ， 该 清单 包括 在 投入 生产 之 前 审查 所 有 
项 目的 数据 库 。 但 是 ， 这 样 做 很 容易 造成 在 项 目的 生命 周期 中 介入 较 晚 ， 其 至 超出 了 更 改 
范围 ， 这 时 就 需要 制度 发 挥 作用 了 。 花 时 间 评 估 组 织 中 普遍 使 用 或 即将 采用 的 数据 存储 并 
发 布 最 佳 实践 以 及 其 中 的 权衡 和 范式 ， 是 展示 数据 库 可 靠 性 工程 师 价值 的 重要 方式 ， 也 是 
与 软件 工程 师 和 架构 师 合作 构建 数据 存储 及 共享 知识 的 绝 佳 机 会 。 随 着 定期 发 布 ， 当 架构 
中 引入 尚未 经 过 评估 的 新 数据 存储 时 ， 鼓 励 大 家 一 起 评估 新 数据 存储 作为 项 目 和 资源 一 部 
分 的 优 和 缺点。 关键 是 让 大 家 看 到 数据 库 可 靠 性 工程 师 的 价值 ， 而 不 是 限制 。 


可 以 使 用 一 些 度量 值 来 衡量 数据 库 可 靠 性 工程 师 和 组 织 在 这 方面 的 表现 ， 示 例如 下 。 


。 多 少 项 目的 架构 有 数据 库 可 靠 性 工程 师 参与 或 采用 了 其 批准 的 模板 ? (事后 回顾 ) 

。 使 用 和 部 署 了 什么 存储 ? (事后 回顾 ) 

。 对 于 每 个 项 目 阶段 或 者 用 户 故 事 '"， 数 据 库 可 靠 性 工程 师 做 了 多 少 工 作 ? (事后 回顾 ) 
。 度量 存储 层 和 引擎 的 可 用 性 、 吞 吐 量 和 延 时 ， 以 此 衡量 可 靠 性 。 


2. 数据 库 开 发 

与 构建 架构 类 似 ， 数 据 库 可 靠 性 工程 师 尽早 参与 数据 库 项 目的 开发 ， 有 助 于 项 目 成 功 。 第 
8 章 讨论 过 这 类 实践 及 其 价值 。 这 方面 的 最 大 障碍 之 一 是 ， 软 件 工程 师 忘 记 与 数据 库 可 靠 
性 工程 师 讨 论 他 们 的 设计 ， 有 时 软件 工程 师 认 为 不 需要 这 种 指导 。 这 种 “斗争 ”有 助 于 软 
件 工 程 师 团 队 看 到 与 数据 库 可 靠 性 工程 师 合 作 所 带 来 的 价值 。 


数据 库 可 靠 性 工程 师 应 与 开发 团队 一 起 工作 ， 无 论 全 职 参 与 还 是 仅 参 与 一 段 时 间 。 和 软件 
工程 师 结对 工作 ， 有 助 于 让 开发 团队 看 到 与 数据 库 可 靠 性 工程 师 协 作 的 价值 。 即 使 数据 库 
可 靠 性 工程 师 不 擅长 编写 代码 ， 他 们 对 数据 建 模 、 数 据 库 访 问 和 功能 方面 的 建议 也 是 很 有 
价值 的 ， 也 有 助 于 增进 团队 之 间 的 关系 。 软 件 工程 师 与 数据 库 可 靠 性 工程 师 〈 负 责 审阅 、 
实现 或 值班 以 支持 数据 驱动 型 应 用 ) 结对 工作 ， 可 以 促进 团队 之 间 的 关系 、 相 互 理解 以 及 
跨 团队 的 知识 传播 ， 进 而 加 快 开发 进度 。 


前 面 也 讨论 了 在 数据 层 的 集成 方面 ， 为 软件 工程 师 提供 最 佳 实践 和 模式 的 重要 性 。 例 如 ， 
可 以 为 模型 、 查 询 或 者 功能 列 清单 ， 并 请 软件 工程 师 反 馈 是 否 采 用 了 该 模式 。 这 些 清单 可 
以 标记 出 需要 审阅 后 才能 发 布 到 生产 中 的 用 户 故 事 或 功能 。 


有 一 些 指标 可 以 衡量 数据 库 可 靠 性 工程 师 和 组 织 在 这 方面 的 表现 ， 示 例如 下 : 



































































































































































































































注 1: 敏捷 开发 中 的 概念 。 一 一 译 者 注 
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。 软件 工程 师 与 数据 库 可 靠 性 工程 师 结对 工作 的 时 间 ， 

。 数据 库 可 靠 性 工程 师 参 与 的 用 户 故事 数 ， 

。 将 功能 特性 的 度量 值 (比如 延 时 和 持久 性 ) 与 是 否 有 数据 库 可 靠 性 工程 师 参 与 相对 应 ; 
。 与 软件 工程 师 结 对 轮值 。 














3. 生产 环境 变 

组 良 置 疑 ， 所 有 人 都 希望 无 差错 地 执行 变更 ， 但 数据 库 可 靠 性 工程 师 无 法 应 对 快速 攀升 的 
部 署 频率 。 最 后 ， 积 压 的 待 办 事项 被 揉 进 一 个 庞大 、 脆 弱 的 变更 集中 ， 这 可 能 会 带 来 巨大 
的 风险 ; 或 者 ， 在 未 经 数据 库 可 靠 性 工程 师 审阅 的 情况 下 就 执行 了 变更 。 如 第 8 章 所 述 ， 
应 对 这 种 情况 的 有 效 方式 是 构建 流程 和 工具 ， 以 便 在 部 署 时 软件 工程 师 能 够 更 好 地 决策 : 
哪些 可 以 通过 常规 部 署 机 制 完成 ， 哪 些 需 要 数据 库 可 靠 性 工程 师 执 行 ， 以 及 在 不 确定 的 情 
况 下 哪些 内 容 需 要 数据 库 可 靠 性 工程 师 审阅 。 


第 一 步 最 为 简单 一 一 逐步 建立 一 个 探索 性 工具 库 ， 它 可 以 指出 一 项 变更 是 否 安全 。 即 使 无 
法 立即 消除 瓶颈 ,但 和 数据 库 可 靠 性 工程 师 一 起 创建 该 工具 库 将 会 逐渐 发 挥 作用 。 然 后 ， 成 
立 一 个 评审 委员 会 ， 定 期 总 结 近 期 的 变更 、 探 索性 尝试 和 指导 的 效果 ， 以 及 这 些 变 更 是 否 成 
功 。 该 委员 会 将 有 效 监 督 该 流程 。 可 以 将 其 视 作 定期 回顾 变更 的 一 部 分 ， 无 论 成 功 与 否 。 


























促进 软件 工程 师 团队 尽 可 能 自主 的 另 一 种 方式 是 ， 建 立 一 个 数据 库 的 变更 模式 ， 探 索性 地 
将 其 应 用 于 将 来 的 变更 中 。 慢 慢 地 ， 当 与 软件 工程 师 结 对 工作 并 按 该 方法 处 理 变更 时 ， 就 
可 以 新 建 一 个 动态 文档 ， 软 件 工程 师 可 以 使 用 该 文档 并 逐步 完善 。 此 外 ， 回 顾 和 检查 该 模 
式 是 否 成 功 至 关 重 要 。 


























可 以 通过 为 探索 性 尝试 和 变更 模式 提供 保护 措施 ， 来 进一步 完善 软件 工程 师 所 使 用 的 
架 。 这 些 保护 措施 能 让 所 有 人 (软件 工程 师 、 运 维 人 员 、 数 据 库 可 靠 性 工程 师 和 领导 层 ) 
更 有 信心 。 这 种 机 制 运 转 得 越 好 ， 大 家 的 信心 越 强 ， 效 果 就 越 好 。 通 过 让 软件 工程 师 团 队 
自助 完成 ， 你 与 这 些 团队 的 关系 会 变 得 更 加 融洽 ， 因 为 你 证 明了 自己 的 价值 。 继 续 发 挥 你 
在 数据 库存 储 和 访问 方面 的 专长 ， 将 会 进一步 加 快 他 们 的 开发 速度 ， 你 们 的 关系 也 会 更 融 
洽 。 可 以 采用 结对 开发 或 培训 的 方式 〈 比 如 研讨 会 、 知 识 分 享 和 文档 ) 。 
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一 些 变更 必须 有 数据 库 可 靠 性 工程 师 参 与 ， 大 量 赋 能 也 不 能 令 其 动 播 。 即 使 在 该 阶段 ， 仍 
然 可 以 采取 培训 或 为 他 人 赋 能 的 方法 。 同 样 ， 在 计划 和 执行 变更 时 与 工程 师 结 对 是 很 好 的 
做 法 。 和 运 维 工 程 师 结 对 也 很 有 价值 ， 因 为 协助 处 理 复杂 生产 环境 的 人 员 越 多 越 好 。 

即使 缺少 有 效 的 自动 化 ， 数 据 库 可 靠 性 工程 师 和 团队 仍 有 很 多 方法 来 实施 稳定 、 无 差错 的 


变更 ， 而 不 会 导致 开发 流程 停滞 。 在 完善 手工 流程 的 可 靠 性 和 可 复 用 性 之 后 ， 技 术 、 工 具 
和 代码 可 以 提供 进一步 的 保证 。 











有 些 度量 值 可 以 衡量 数据 库 可 靠 性 工程 师 和 组 织 在 这 方面 的 表现 ， 示 例如 下 : 
。 软件 工程 师 / 运 维 人 员 在 变更 中 与 数据 库 可 靠 性 工程 师 结对 工作 的 时 间 ， 
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。 需要 数据 库 可 靠 性 工程 师 参 与 的 变更 和 全 部 变更 的 数量 对 比 ， 
。 变更 失败 的 次 数 及 其 影响 。 


4. 基础 设施 设计 与 部 署 

之 前 讨论 过 和 工程 师 一 起 选择 经 过 测试 、 可 靠 的 数据 存储 。 同 样 ， 你 必须 和 运 维和 人 员 以 及 基础 
设施 人 员 协 作 ， 确 保 相 关 必 要 事项 都 已 准备 就 绪 ， 不 仅 包 括 托管 数据 存储 的 资源 ， 还 包括 部 署 
和 维护 所 需要 的 一 切 。 第 5 章 详 细 讨论 了 上 述 事项 的 各 个 方面 ， 第 6 章 介绍 了 管理 大 规模 基础 
设施 所 需 的 软件 和 工具 。 但 对 于 数据 存储 (尤其 是 分 布 式 数据 存储 )， 仍 有 很 多 事 要 做 。 




















与 生产 环境 实施 变更 并 给 予 软件 工程 师 更 多 自主 权 相 似 ， 将 其 引入 组 织 则 在 逐渐 建立 信任 
给 数据 库 可 靠 性 工程 师 团队 和 组 织带 来 显著 价值 的 第 一 步 ， 是 采用 相同 的 代码 仓库 和 版 本 管 
里 系统 管理 脚本 、 配 置 文件 以 及 文档 。 然 后 ， 可 以 和 运 维 团队 一 起 通过 配置 管理 和 编排 ， 配 


置 并 部 署 空 数据 存储 。 最 终 ， 仍 然 需要 将 实际 数据 写 人 数据 存储 中 ， 只 不 过 是 逐步 推进 的 。 
























































在 整个 过 程 中 ， 通 过 和 运 维 人 员 结对 ， 可 以 进行 配置 测试 、 安 全 性 测试 、 负 载 测 试 ， 甚 至 是 
数据 完整 性 测试 和 备份 测试 这 样 的 高 级 测试 。 整 个 团队 越 熟 悉数 据 库 的 工作 原理 以 及 故障 的 
起 因 ， 效 果 就 越 好 。 可 用 性 测试 和 故障 测试 也 是 需要 与 其 他 团队 合作 完成 的 重要 测试 。 














最 后 ， 可 以 让 运 维 人 员 ， 甚 至 管理 自己 基础 设施 的 高 级 工程 师 作为 主要 值班 人 员 。 通 过 结 
对 工作 的 方式 ， 他 们 能 从 使 用 这 些 基 础 设施 中 迅速 建立 信心 ， 同 时 最 大 限度 地 降低 风险 。 
只 有 当 团 队 真 正 了 解 如 何 维护 这 些 基础 设施 的 各 个 方面 时 ， 你 才能 着 手 将 风险 更 高 的 组 件 
自动 化 ， 例 如 数据 加 载 、 复 制 修复 和 主 节 点 故障 转移 。 









































有 些 度量 值 可 以 衡量 数据 库 可 靠 性 工程 师 和 组 织 在 这 方面 的 表现 ， 示 例如 下 : 




















。 使 用 配置 管理 系统 的 基础 设施 组 件 的 数量 ， 

。 集成 到 编排 平台 的 基础 设施 组 件 的 数量 ， 

。 部 署 成 功 或 失败 的 计数 ， 

。 资源 消耗 度量 值 一 一 数据 存储 使 用 的 所 有 子 系统 ; 
。 非 数据 库 可 靠 性 工程 师 值班 的 次 数 ， 

。 由 非 数据 库 可 靠 性 工程 师 处 理 的 故障 和 MTTR ，; 
。 故障 升级 到 需 由 数据 库 可 靠 性 工程 师 处 理 的 次 数 。 




















这 项 工作 是 否 成 功 ， 主 要 取决 于 关系 、 理 解 、 信 任 和 知识 共享 。 许 多 数据 库 管 理 员 习惯 于 
单打 独 斗 ， 而 通过 这 些 步 骤 可 以 将 数据 库 相 关 工 作 引 向 光明 大 道 。 在 数据 领域 ， 不 再 是 只 
有 最 勇敢 或 最 思春 的 工程 师 才 愿意 解决 模糊 的 难题 。 关 键 是 反复 接触 、 不 断 建 立信 任 ， 以 
及 与 他 人 结对 。 


13.1.2 ”数据 驱动 决策 
在 没有 相关 数据 (关于 变更 之 后 的 影响 ) 支撑 的 情况 下 ， 无 法 建立 信任 。 戴 明 环 中 关于 计 
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划 、 执 行 、 检 查 和 行动 的 要 求 ， 第 4 章 已 有 论述 。 每 次 变更 前 ， 要 明确 定义 成 功 的 指标 ， 
并 以 质疑 的 态度 分 析 变 更 结果 。 

如 第 2 章 和 第 3 章 所 述 ， 利 用 组 织 SLO 的 相关 知识 ， 对 于 理解 变更 的 必要 性 、 度 量 值 和 结 
果 (向 组 织 其 他 部 分 证 明 潜在 价值 以 推动 变更 ) 以 及 努力 的 价值 至 关 重 要 。 





希望 你 所 在 的 组 织 了 解数 据 驱 动 决策 的 价值 ， 并 且 实 施 了 观测 平台 、 流 程 分 析 以 及 行为 准 
则 ， 而 且 定义 了 清晰 、 有 用 的 SLO， 以 推动 决策 。 若 非 如 此 ， 则 需要 从 这 些 实践 开始 ， 以 
便 带 来 更 深远 、 更 广泛 的 影响 。 


13.1.3 ”数据 完整 性 和 可 恢复 性 

第 7 章 讨 论 了 数据 完整 性 的 重要 性 ， 以 及 在 数据 丢失 或 损坏 的 情况 下 如 何 恢复 。 组 织 通常 
将 其 视 为 数据 库 可 靠 性 工程 师 的 责任 ， 然 而 数据 库 可 靠 性 工程 师 团队 不 可 能 独自 完成 这 项 
任务 。 作 为 数据 完整 性 的 拥护 者 ， 数 据 库 可 靠 性 工程 组 织 通 和 常 要 承担 责任 。 说 服 软 件 工程 
师 团 队 为 数据 验证 流水 线 和 恢复 API 分 配 更 多 资源 ， 是 一 项 持续 性 的 职责 。 如 果 解 决 了 架 
构 和 软件 开发 早期 缺少 数据 库 可 靠 性 工程 师 参 与 的 困难 ， 就 会 增强 人 际 关 系 和 信任 ， 进 而 
逐步 构建 共享 代码 ， 这 有 利于 实现 数据 完整 性 验证 流水 线 。 


这 并 非 易 事 ， 我 们 的 经 验 是 大 多 数 软件 工程 师 认 为 数据 完整 性 仅 是 数据 库 可 靠 性 工程 师 
要 考虑 的 事情 。 资 源 区 乏 的 组 织 不 愿 开发 验证 流水 线 和 用 于 恢复 的 API， 因 此 ， 必 须 采 用 
“草根 ”思维 的 解决 方案 ， 与 数据 完整 性 问题 周旋 。 同 样 ， 追 踪 手 动 恢复 数据 所 付出 的 人 
力 成 本 ， 对 于 说 服 领导 为 开发 用 于 恢复 的 API 和 验证 流水 线 投入 资源 大 有 帮助 。 


如 前 所 述 ， 数 据 库 可 靠 性 的 成 功 演进 要 求 组 织 逐 步 、 全 面 地 转变 。 选 择 占用 你 很 多 时 间 且 
对 其 他 团队 造成 极 大 限制 的 领域 ， 是 一 项 需要 明智 地 实践 的 技能 。 然 后 ， 通 过 组 织 观念 的 
不 断 转变 来 逐步 建立 信任 并 改进 工作 方式 ， 保 持 前 进 的 势头 。 而 这 一 切 都 需要 时 间 、 信 任 
和 大 量 实验 ， 才 能 确定 哪些 对 组 织 所 处 的 风险 等 级 是 有 效 的 ， 哪 些 是 无 效 的 。 
























































13.2 ”小结 


感谢 抽出 宝贵 时 间 阅 读本 书 。 我 们 对 发 展 这 种 复杂 的 、 具 有 挑战 性 的 技术 职业 充满 热情 。 
尽管 书 中 相当 一 部 分 内 容 比较 新 新 或 者 仍 在 验证 中 ， 但 我 们 认为 数据 库 可 靠 性 工程 师 的 观 
念 转变 可 以 为 数据 驱动 型 服务 和 组 织带 来 可 观 价 值 。 


希望 你 受到 局 发 去 探索 组 织 中 的 这 些 变化 ， 并 询 望 学 习 更 多 知识 。 由 于 该 框架 比较 灵活 ， 
因此 我 们 提供 了 可 供 参 考 和 深入 研究 的 阅读 资料 。 但 是 ， 更 重要 的 是 展示 传统 的 数据 库 管 
理 员 如 何 融 入 现代 和 未 来 世界 。 数 据 库 管 理 员 的 角色 不 会 消失 ， 无 论 你 是 行业 新 人 还 是 % 
识 人 士 ， 都 愿 你 拥有 长 远 的 职业 生涯 ， 为 你 所 在 的 组 织 贡 献 价值 。 
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莱恩 .坎贝尔 (Laine Campbell) 在 Fastly 担任 生产 工程 高 级 总 监 ， 她 还 是 PalominoDB/ 
Blackbird 的 创始 人 和 前 首席 执行 官 。PalominoDB/Blackbird 为 众多 公司 提供 数据 库 需 
求 咨询 服务 ， 其 客户 包括 Obama for America、Activision Call of Duty、Adobe Echosign、 
Technorati、Livejournal 和 Zendesk。 她 在 运行 大 型 数据 库 和 分 布 式 系统 方面 有 超过 18 年 的 
工作 经 验 。 





夏 丽 蒂 . 梅 杰 斯 (Charity Majors) 是 honeycomb.io 的 首席 执行 官 和 联合 创始 人 。honeycomb. 
io 结合 了 上 日志 聚合 器 的 原始 准确 性 、 时 序 指 标的 速度 和 APM (应 用 性 能 指标 ) 的 灵活 性 ， 
提供 了 首 个 真正 意义 上 的 下 一 代 分 析 服 务 。 她 曾 在 Parse 和 Facebook 负责 运营 工作 ， 管 理 
大 量 的 MongoDB 复 本 集 以 及 Redis、Cassandra 和 MySQL。 她 还 与 Facebook 的 RocksDB 
团队 密切 合作 ， 使 用 可 插 拔 存储 引 学 API 开发 出 了 世界 上 首 个 使 用 RocksDB 作为 底层 存 
储 引 党 的 MongoDB。 


封面 介绍 
本 书 封面 上 的 动物 是 萨 福 克 马 ， 也 称 萨 福 克 铸 马 或 萨 福 克 果 毛 马 。 这 种 原 产 自 英国 的 挽 马 
一 般 通体 条 色 ， 腿 部 粗壮 有 力 。 





萨 福 克 马 出 现 于 16 世纪 ， 用 于 农场 工作 。 虽 然 该 品种 在 20 世纪 初 受到 欢迎 ， 但 由 于 农业 
机 械 化 的 发 展 ， 到 20 世纪 中 叶 数 量 大 幅 减 少 。 萨 福 克 马 高 165~178 厘米 ， 重 900 多 千克 。 
它们 体型 较 矮 ， 但 仍 比 其 他 英国 挽 马 (比如 克 莱 诊 代 尔 马 和 夏 尔 马 ) 庞大 。 





O?Reilly 图 书 封面 上 的 许多 动物 濒临 灭绝 ， 它 们 是 这 个 世界 所 剩 无 几 的 瑰宝 。 如 果 想 了 解 
如 何 为 这 些 动物 提供 帮助 ， 请 访问 animals.oreilly.com。 


封面 图 片 来 自 大 英 博物 馆 。 
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数据 库 可 靠 性 工程 : 数据 库 系 统 设计 与 运 维 指南 


信息 技术 领域 的 基础 设施 即 代 码 革命 正在 影响 着 数据 库 管 理 。 本 书 从 实 “这 本 书 从 实践 经 验 和 重要 细节 
践 角度 介绍 如 何 将 网 站 可 靠 性 工程 的 实践 应 用 于 数据 库 架 构 和 运 维 , 为 。 出发， 探讨 了 网 站 可 靠 性 工程 
想 成 为 数据 库 可 靠 性 工程 师 的 专业 人 士 提供 一 个 指导 框架 ， 开 发 人 员 、 师 解 决 重要 问题 的 视角 和 措施 。 
系统 管理 员 和 初中 级 数据 库 管 理 员 等 都 能 从 中 受益 。 建议 任何 负责 关键 业务 数据 的 

软件 工程 师 都 读 一 读 这 部 领域 
本 书 首先 介绍 数据 库 可 靠 性 工程 师 需要 掌握 的 核心 运 维 概念 ， 然 后 介绍 “标杆 之 作 。” 


各 种 数据 库 持久 性 选项 ， 包 括 如何 利 用 关键 技术 提供 有 弹性 、 可 扩展 、 I 
高 性 能 的 数据 存储 和 检索 。 有 了 数据 库 可 靠 性 工程 的 坚实 基础 ， 读 者 便 Bio 


能 深入 研究 任何 现代 数据 库 的 架构 和 运 维 。 





莱恩 .坎贝尔 (Laine Campbell) 


目 服务 等 级 要 求 和 风险 管理 是 Facebook 生 产 工 程 总 监 


目 构建 并 演进 具有 运 维 可 见 性 的 架构 曾 任 Fastly 生 产 工 程 高 级 总 
加 基础 设施 工程 和 基础 设施 管理 监 ， PalominoDB/Blackbird 创 始 
四 数据 存储 、 索 引 和 复制 数据 库 和 分 布 式 系统 方面 有 近 20 
四 明确 数据 存储 的 特性 和 用 例 年 经 验 。 

国 数据 存储 架构 组 件 和 数据 驱动 的 架构 夏 丽 蒂 . 梅 杰 斯 (Charity Majors) 


是 Honeycomb 公 司 联合 创始 人 和 
CTO， 曾 任 Facebook 生 产 工程 经 
理 ， 是 一 位 有 15 年 以 上 经 验 的 高 
级 系统 工程 师 。 
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